훌륭한 에이전트적 친구는 단순히 말로만 조언하지 않는다: 그들은 당신의 가중치(Weights)를 업데이트할 수 있다

Multi-agent LLM 시스템은 대개 자연어 메시지를 교환함으로써 협업합니다. 이 인터페이스는 단순하고 해석 가능하지만, 각 송신자(sender)의 중간 계산 과정을 토큰으로 직렬화한 후 수신자(receiver)가 이를 다시 처리하도록 강제하며, 이로 인해 생성 토큰 비용, prefill 오버헤드(prefill overhead), 그리고 KV-cache 메모리가 증가합니다. 우리는 대안적인 통신 인터페이스를 연구합니다. 송신자의 메시지를 수신자의 컨텍스트(context)에 추가하는 대신, 송신자의 은닉 상태(hidden states)를 일시적이고 수신자 전용인 가중치 섭동(weight perturbation)으로 컴파일하는 방식입니다. 우리는 알려진 고정된 수신자 아키텍처를 위한 가중치 공간 통신 프레임워크인 TFlow (Thought Flow)를 소개합니다. 각 쿼리(query)에 대해, 역할 프롬프트(role-prompted)가 적용된 고정된 송신자 에이전트들이 입력을 처리하며, 학습된 파라미터 생성기(parameter generator)가 그들의 내부 활성화(activations)를 수신자의 모듈을 대상으로 하는 저차원 LoRA 섭동으로 매핑합니다. 이러한 섭동은 수신자의 생성 단계에서만 융합되어 적용되며, 모델을 영구적으로 변경하거나 수신자의 텍스트 컨텍스트를 확장하지 않고도 인스턴스 수준의 적응(instance-level adaptation)을 가능하게 합니다. 세 개의 Qwen3-4B 에이전트를 사용한 실험에서, TFlow는 5개의 벤치마크 전반에 걸쳐 단독 수신자 대비 정확도를 최대 8.5포인트 향상시키는 동시에 처리 토큰을 최대 32.69%까지 줄였습니다. 텍스트 기반의 3개 에이전트 베이스라인과 비교했을 때, TFlow는 5개 중 4개의 벤치마크에서 경쟁력 있는 정확도를 유지하면서도 총 처리 토큰을 최대 83.27% 줄이고 실제 추론 시간(wall-clock inference time)을 최대 4.6배 단축했습니다. 이러한 결과는 일시적인 저차원 가중치 섭동이 효율적인 Multi-agent LLM 협업을 위한 실행 가능한 통신 매체로 기능할 수 있음을 시사합니다.

Insights

훌륭한 에이전트적 친구는 단순히 말로만 조언하지 않는다: 그들은 당신의 가중치(Weights)를 업데이트할 수 있다

요약

핵심 포인트

댓글

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것