아무도 지켜보지 않을 때 LLM 에이전트가 말하는 것: 멀티 에이전트 토론에서의 사회적 구조와 잠재적 목표의 출현

LLM 에이전트들은 역할, 청중, 관계적 맥락이 무엇을 말하는 것이 유리하거나 비용이 드는지를 결정할 수 있는 사회적으로 구조화된 환경에서 점점 더 많이 활동하게 될 것입니다. 우리는 프롬프트에 명시적인 목표가 없는 상태에서, 이러한 사회적 구조가 동일한 조건에서 유도된 비공식 (off-the-record, OTR) 채널과 비교했을 때 에이전트가 공개적으로 표현하는 내용을 변화시키는지 연구합니다. 우리는 에이전트들이 공유 히스토리에 포함되는 공개 발언을 생성하는 동시에, 기록은 되지만 다른 참가자에게는 절대 보여지지 않는 OTR 응답을 생성하는 이중 채널 토론 프레임워크를 도입합니다. 10개의 모델, 3개의 시나리오, 그리고 각 시나리오 내 5개의 변형을 통해 분석한 결과, 정렬 유도 (alignment-inducing) 설정은 대상 에이전트에서 체계적인 공개-OTR 발산 (divergence)을 생성하며, 결정 발산율이 $\sim$3%의 베이스라인에서 약 40%까지 상승함을 확인했습니다. 이 효과는 입장 (stance), 의미적 유사성 (semantic similarity), 자연어 추론 (natural language inference), 설문 응답의 네 가지 종합 분석 전반에서 일관되게 나타납니다. 일부 사례에서 OTR 응답은 공개적인 순응 (accommodation)이 경력 리스크나 후원 의무와 같은 관계적 압박 때문임을 명시적으로 밝히기도 합니다. 이러한 연구 결과는 에이전트 평가가 명시적인 목표를 넘어 출현하는 목표 (emergent objectives)를 탐지하는 방향으로 확장되어야 함을 시사합니다. 우리는 이 평가를 실행 가능한 형태로 만드는 이중 채널 평가 프레임워크와 보완적인 행동 측정 지표를 제시합니다.

Insights

아무도 지켜보지 않을 때 LLM 에이전트가 말하는 것: 멀티 에이전트 토론에서의 사회적 구조와 잠재적 목표의 출현

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때