메시지 전달(Message Passing)을 통한 효율적인 추론 구현

추론 시간 스케일링(inference-time scaling)이 대규모 언어 모델(LLMs)의 추론 능력을 향상시켰지만, 긴 사고 사슬(chains-of-thought, CoTs)을 생성해야 하는 필요성은 계산상의 병목 현상을 야기합니다. 따라서 CoT와 같은 순차적 스케일링(sequential scaling) 방식과 대조적으로, 최근의 병렬 스케일링(parallel scaling) 기술은 분기 및 결합(fork and join, FJ) 프리미티브를 사용하여 여러 LLM 스레드에 작업을 분산합니다. 그러나 분기-결합(fork-join) 패러다임에서 스레드는 일반적으로 일시적이며 서로 점 단위(pointwise)로 통신하지 않기 때문에 확장성(scalability)에 한계가 있습니다. 이를 해결하기 위해, 우리는 스레드가 경량화된 송신(send) 및 수신(receive) 프리미티브를 통해 직접 통신하는 LLM 추론 프레임워크인 메시지 전달 언어 모델(Message Passing Language Models, MPLMs)을 소개합니다. MPLMs는 두 가지 핵심 메커니즘을 통해 효율적인 스케일링을 가능하게 합니다: (1) 중복적인 컨텍스트 공유를 피함으로써 달성되는 통신 비용 감소, (2) 동료로부터 얻은 부분적인 정보에 기반하여 스레드가 조기에 종료될 수 있도록 하는 선점(preemption)입니다. 우리는 세 가지 유형의 작업에서 MPLMs의 가능성을 입증합니다. 첫째, 스도쿠(Sudoku) 퍼즐에서 MPLMs가 직렬 CoT 및 병렬 FJ 모두보다 점근적으로(asymptotically) 더 작은 컨텍스트를 필요로 함을 보여줍니다. 그런 다음, 표준 CoT 및 FJ 방식은 물론 도구 없는 최첨단 추론 모델들에게도 여전히 도전적인 25 x 25 퍼즐을 해결하도록 단일 모델을 미세 조정(fine-tune)합니다. 둘째, 3-SAT 퍼즐에서 선점(preemption) 능력은 유망하지 않은 분기(branches)의 종료를 가능하게 하여 효율성을 향상시킵니다. 마지막으로, 적절하게 프롬프트된 대규모 사전 학습 모델(large pre-trained models)이 MPLM 프로토콜을 따름을 보여주며, 인기 있는 분기-결합(fork-join) 방식과 비교하여 긴 컨텍스트 질의응답(long-context question answering)에서 경쟁력 있는 결과를 달성함을 보여줍니다.

Insights

메시지 전달(Message Passing)을 통한 효율적인 추론 구현

요약

핵심 포인트

댓글

월스트리트발 반도체 급락세 확산에 Samsung Electronics, SK Hynix 주가 7% 이상 폭락

메타發 AI 인프라 우려에 메모리주 급락…마이크론·샌디스크 10%대 하락

이 설정을 통해 Hermes 에이전트의 토큰 비용을 대폭 절감하세요

생각보다 더 놀라운 결과: Fable-5가 Remote Labor Index에서 16.10%를 기록했습니다

메타發 AI 인프라 우려에 메모리주 급락…마이크론·샌디스크 10%대 하락

이 설정을 통해 Hermes 에이전트의 토큰 비용을 대폭 절감하세요

생각보다 더 놀라운 결과: Fable-5가 Remote Labor Index에서 16.10%를 기록했습니다