진정한 창발적 합의는 언제 발생하는가? LLM 에이전트 사회를 위한 측정된 결합 이득(Coupling Gain) 및 타당성 진단법
요약
LLM 에이전트 사회에서 발생하는 창발적 합의와 양극화 현상을 정량적으로 측정하고 진단하는 새로운 방법론을 제안합니다. 결합 이득(Coupling Gain) 지표를 도입하여 모델의 사회적 역학이 진정한 상호작용인지 아니면 모델 자체의 사전 지식에 의한 산물인지 구분하는 프로토콜을 제공합니다.
핵심 포인트
- 결합 이득(Coupling Gain) 지표를 통해 에이전트의 사회적 역학을 정량화함
- LLM 에이전트는 자발적 양극화를 일으키지 않으며, 양극화는 외부 유도에 의해 발생함
- 무작위 초기 조건 진단법으로 모델의 사전 지식과 진정한 평균화 현상을 구분 가능
- 창발적 합의는 단일 이웃이 아닌 문맥과 양식이 일치된 결합을 통해 발생함
LLM "에이전트 사회 (agent societies)"는 창발적 합의(emergent consensus) 또는 양극화(polarization)의 시연을 통해 연구되어 왔으나, 측정 가능한 제어 파라미터(control parameter)가 없고, 각 체제(regime)가 언제 나타나는지에 대한 이론이 없으며, 결과가 진정한 사회적 역학인지 아니면 모델의 인위적 산물(artifact)인지에 대한 테스트도 없습니다. 본 연구에서는 이웃의 진술된 의견을 반사실적으로 섭동(counterfactually perturbing)함으로써 에이전트별로 측정되는 결합 이득(coupling gain) $\gamma$를 도입합니다. (i) $\gamma$는 안정적이며 모델을 구분하는 특성을 가집니다. 5개의 프런티어 모델(frontier models) 전반에 걸쳐 0.15~0.43의 범위를 나타내며 (n=20, 95% 신뢰 구간(CIs) $\le$ 0.025), 패러프레이즈(paraphrase)에 불변합니다. 사회적 이웃 $\gamma$는 수치적 앵커(numeric-anchor) $\gamma$와 대략적으로 일치하므로, $\gamma$는 증거 결합(evidence-coupling)의 증거이지 유일하게 사회적인 것은 아닙니다. (ii) 측정된(가정되지 않은) 계수를 사용하는 고전적 역학이 체제를 구성합니다: 합의/다원주의(consensus/pluralism)의 경우 Friedkin-Johnsen 모델, 양극화(polarization)의 경우 부호 라플라시안(signed-Laplacian)/구조적 균형(structural-balance) 모델이 적용됩니다. (iii) 프런티어 LLM은 자발적으로 역효과(backfire, $\beta \le 0$)를 일으키지 않으므로, 기본 사회는 스스로 양극화되지 않습니다. 즉, 양극화는 항상 유도됩니다. $\beta > 0$ 분기는 FJ 대리 모델(FJ surrogate)에서만 발생하며, 에이전트에서는 절대 발생하지 않습니다. (iv) 무작위 초기 조건 진단법 — 최종 의견 대 초기 의견의 (기울기, 편향) — 은 진정한 평균화(averaging)와 모델 사전 지식의 산물(model-prior artifacts)을 구분합니다 (내부 값을 가진 사실을 통해 설계 단계에서 경계 검열(boundary-censoring)은 배제되었습니다). 이미 발표된 "창발적 합의" 결과(Chuang et al. 2023)에 적용한 결과, 모델 특유의 혼동이 드러났습니다: 논쟁 가능한 주장에서는 평균화가 일어나고, 확정된 사실에서는 사전 지식의 산물이 나타납니다. (v) 결합(Coupling)은 문맥 의존적입니다: 쌍별(pairwise) $\gamma$는 다수 이웃의 결과를 예측하지 못하며, 오히려 결과를 거꾸로 정렬할 수도 있습니다. 반면, 양식(modality)이 일치하는 그룹 결합은 예측이 가능합니다 (16개의 폐쇄형 및 개방형 모델, Pearson $r=-0.70$, permutation $p=0.008$). 체제의 법칙은 단일 이웃 $\gamma$가 아니라 이러한 일치된 결합을 따릅니다. 즉, 창발적 합의는 대상 상호작용에서의 결합으로부터 읽어야 합니다. 본 연구는 새로운 이론이 아닌, 측정 프로토콜과 타당성 도구를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기