BOUNDARY_SYNC: 멀티 에이전트 LLM 시스템에서의 통신 유발 표현 결합(Representational Coupling) 측정

대규모 언어 모델 (LLMs)이 통신하는 에이전트로 배포됨에 따라, 에이전트 간의 통신이 출력의 수렴을 유발하는가? 우리는 결합 증폭 계수 (Coupling Amplification Factor, CAF = JSD_cond / JSD_baseline)를 통해 표현 결합 (Representational Coupling)을 측정하는 프로토콜인 BOUNDARY_SYNC를 소개한다. 여기서 CAF < 1은 균질화 (Homogenization)를 나타내고, CAF > 1은 다양화 (Diversification)를 나타낸다. 통제된 GPT-4o 실험 (N=30, 약 9,900회의 API 호출)을 통해 텍스트 및 이미지 통신에서의 결합을 측정하였다. 주요 결과는 다음과 같다: (1) 텍스트 통신은 상당한 균질화를 유발하며 (CAF=0.803 [0.740, 0.873], d=1.30, p<0.001), 이는 통신 부재 제거 실험 (No-communication ablation) 및 프롬프트 섭동 제어 (Prompt-perturbation controls)를 통해 확인되었다; (2) 이미지 통신 또한 동일 양식 내 베이스라인 (Within-modality baselines) 하에서 균질화를 일으키며 (CAF=0.834 [0.811, 0.858]), 유사한 비례적 효과를 보인다; (3) 그룹 크기는 결합 방향을 조절한다 — K=5는 균질화를 생성하는 반면, K=3은 CAF > 1.0을 산출하며 (점 추정치 1.14 및 1.06, 신뢰 구간 미정), 이는 다양화를 향한 방향성 전환을 시사한다; (4) 교차 모델 복제 (Cross-model replication) 결과 극심한 변동성 (CAF 0.034-0.803)을 보였으며, DeepSeek은 형식적 아티팩트 (Format artifacts)에 의해 지배되었다; (5) 결합은 상태 비저장 (Stateless)적이다 — 누적 업데이트보다는 프롬프트 컨텍스트 (Prompt context)에 의해 구동되며, 지속적인 합의는 단조 수렴 (Monotonic convergence)을 생성한다. 이러한 결과는 LLM 에이전트 결합이 실재하며, 측정 가능하고, 프롬프트 수준에서 제어 가능하다는 것을 입증하며, 멀티 에이전트 시스템 설계에 직접적인 시사점을 제공한다.

Insights

BOUNDARY_SYNC: 멀티 에이전트 LLM 시스템에서의 통신 유발 표현 결합(Representational Coupling) 측정

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실