순응성이 AI 에이전트 사회에서 집단적 불일치를 생성함

인공지능 안전 연구는 개별 언어 모델을 인간의 가치에 맞추는 데 초점을 맞추고 있지만, 배포된 AI 시스템은 점차 상호작용하는 인구처럼 작동하며 사회적 영향이 개별적인 정렬(alignment)을 무시할 수 있습니다. 본 논문에서는 개별적으로 정렬된 AI 에이전트의 집단이 순응성 역학(conformity dynamics)을 통해 안정적인 불일치 상태로 전이될 수 있음을 보여줍니다. 9개의 대규모 언어 모델과 100쌍의 의견 쌍에 걸쳐 의견 동역학을 시뮬레이션한 결과, 각 에이전트의 행동은 두 가지 경쟁하는 힘에 의해 지배된다는 것을 발견했습니다: 다수(majority)를 따르려는 경향과 특정 위치로 향하는 내재적 편향입니다. 통계 물리학(statistical physics) 도구를 사용하여, 우리는 집단이 언제 장기간 지속되는 불일치 구성(misaligned configurations)에 갇히게 되는지 예측하는 정량적 이론을 도출하고, 소수의 적대적 에이전트가 조작이 중단된 후에도 집단 수준의 정렬을 되돌릴 수 없게 변화시킬 수 있는 예측 가능한 임계점(tipping points)을 식별합니다. 이러한 결과는 개별 수준의 정렬이 집단 안전성을 보장하지 못함을 입증하며, AI 인구에서 발생하는 창발적 행동(emergent behavior)을 고려하는 평가 프레임워크를 요구합니다.

Insights

순응성이 AI 에이전트 사회에서 집단적 불일치를 생성함

요약

핵심 포인트

댓글

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일