본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:22

훌륭한 에이전트적 친구는 단순히 말로만 조언하지 않는다: 그들은 당신의 가중치(Weights)를 업데이트할 수 있다

요약

기존의 Multi-agent LLM 시스템은 자연어 메시지 교환에 의존하여 높은 비용과 오버헤드를 발생시킵니다. 본 논문에서는 송신자의 은닉 상태를 수신자 전용 가중치 섭동(weight perturbation)으로 컴파일하는 새로운 통신 인터페이스인 TFlow (Thought Flow)를 제안합니다. TFlow는 모델의 컨텍스트 확장이나 영구적인 변경 없이도 인스턴스 수준의 적응을 가능하게 하며, 실험 결과에 따르면 기존 텍스트 기반 방식 대비 정확도를 유지하면서 처리 토큰과 추론 시간을 크게 절감하는 효율성을 입증했습니다.

핵심 포인트

  • 기존 Multi-agent LLM 시스템은 자연어 메시지 교환으로 인해 높은 생성 비용 및 prefill 오버헤드를 가집니다.
  • TFlow는 송신자의 은닉 상태를 수신자 전용 가중치 섭동(weight perturbation)으로 변환하여 통신하는 새로운 프레임워크입니다.
  • 이 방식은 모델의 컨텍스트를 확장하거나 영구적으로 변경하지 않고도 인스턴스 수준의 적응을 가능하게 합니다.
  • 실험 결과, TFlow는 기존 텍스트 기반 에이전트 대비 정확도를 유지하면서 처리 토큰을 최대 83.27%까지 줄이고 추론 시간을 최대 4.6배 단축했습니다.

Multi-agent LLM 시스템은 대개 자연어 메시지를 교환함으로써 협업합니다. 이 인터페이스는 단순하고 해석 가능하지만, 각 송신자(sender)의 중간 계산 과정을 토큰으로 직렬화한 후 수신자(receiver)가 이를 다시 처리하도록 강제하며, 이로 인해 생성 토큰 비용, prefill 오버헤드(prefill overhead), 그리고 KV-cache 메모리가 증가합니다. 우리는 대안적인 통신 인터페이스를 연구합니다. 송신자의 메시지를 수신자의 컨텍스트(context)에 추가하는 대신, 송신자의 은닉 상태(hidden states)를 일시적이고 수신자 전용인 가중치 섭동(weight perturbation)으로 컴파일하는 방식입니다. 우리는 알려진 고정된 수신자 아키텍처를 위한 가중치 공간 통신 프레임워크인 TFlow (Thought Flow)를 소개합니다. 각 쿼리(query)에 대해, 역할 프롬프트(role-prompted)가 적용된 고정된 송신자 에이전트들이 입력을 처리하며, 학습된 파라미터 생성기(parameter generator)가 그들의 내부 활성화(activations)를 수신자의 모듈을 대상으로 하는 저차원 LoRA 섭동으로 매핑합니다. 이러한 섭동은 수신자의 생성 단계에서만 융합되어 적용되며, 모델을 영구적으로 변경하거나 수신자의 텍스트 컨텍스트를 확장하지 않고도 인스턴스 수준의 적응(instance-level adaptation)을 가능하게 합니다. 세 개의 Qwen3-4B 에이전트를 사용한 실험에서, TFlow는 5개의 벤치마크 전반에 걸쳐 단독 수신자 대비 정확도를 최대 8.5포인트 향상시키는 동시에 처리 토큰을 최대 32.69%까지 줄였습니다. 텍스트 기반의 3개 에이전트 베이스라인과 비교했을 때, TFlow는 5개 중 4개의 벤치마크에서 경쟁력 있는 정확도를 유지하면서도 총 처리 토큰을 최대 83.27% 줄이고 실제 추론 시간(wall-clock inference time)을 최대 4.6배 단축했습니다. 이러한 결과는 일시적인 저차원 가중치 섭동이 효율적인 Multi-agent LLM 협업을 위한 실행 가능한 통신 매체로 기능할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0