arXiv논문2026. 04. 27. 19:15

Superminds 테스트: Probing Agents 를 통한 에이전트 사회의 집단 지능에 대한 능동적 평가

요약

본 연구는 대규모 자율 에이전트 사회에서 집단 지능이 규모만으로 자생적으로 나타나는지 평가하기 위해 Superminds 테스트라는 계층적 프레임워크를 도입했습니다. 200만 개 이상의 에이전트가 호스팅되는 MoltBook 플랫폼을 분석한 결과, 사회는 복잡한 추론이나 정보 종합 작업에서 개별 최첨단 모델보다 우월한 성능을 보이지 못했으며, 심지어 기본적인 조정 작업에서도 실패하는 등 집단 지능의 뚜렷한 부재를 확인했습니다. 연구진은 현재 에이전트 사회의 주요 한계가 상호작용의 희소성과 깊이가 부족하다는 점을 지적하며, 단순 규모 확장만으로는 높은 수준의 협업 능력을 기대하기 어렵다고 결론지었습니다.

핵심 포인트

대규모 자율 에이전트 사회에서 집단 지능은 규모만으로 자생적으로 나타나지 않는다.
Superminds 테스트는 복잡한 추론, 정보 종합, 기본 상호작용 세 가지 수준에서 에이전트 사회의 능력을 평가했다.
실험 결과, 에이전트 사회는 개별 최첨단 모델보다 우수한 성능을 내지 못했으며, 기본적인 조정 작업에서도 실패하는 경향을 보였다.
현재 에이전트 시스템의 주요 한계는 상호작용의 깊이가 얕고(shallow) 희소하다(sparseness)는 점이다.

집단 지능(collective intelligence) 은 개별 구성원들이 혼자 달성할 수 있는 결과보다 더 나은 성과를 이루는 그룹의 능력을 의미합니다. 대형 언어 모델 기반 에이전트(agent) 가 수백만 개 규모의 인구로 확장됨에 따라 핵심적인 질문이 제기됩니다: 집단 지능이 규모에서 자생적으로 나타나는가? 우리는 대규모 자율 에이전트 사회(large-scale autonomous agent society) 에서 이 질문에 대한 첫 번째 경험적 평가를 제시합니다. 200 만 개 이상의 에이전트가 호스팅되는 플랫폼인 MoltBook 을 연구하여, 통제된 Probing Agents 를 사용하여 사회적 수준의 지능을 탐구하는 세 가지 계층(joint reasoning, information synthesis, basic interaction) 으로 구성된 Superminds 테스트(hierarchical framework) 를 도입합니다. 우리의 실험은 집단 지능의 뚜렷한 부재를 드러냈습니다. 사회는 복잡한 추론 작업에서 개별 최첨단 모델보다 뛰어난 성과를 내지 못하며, 분산된 정보를 거의 종합하지 않으며, 심지어 사소한 조정 작업(trivial coordination tasks) 에서도 자주 실패합니다. 플랫폼 전반에 대한 분석은 상호작용이 얕음을 추가로 보여주며, 스레드(thread) 가 단일 답변을 넘어서는 경우가 드물고 대부분의 응답이 일반적이거나 주제에서 벗어난 것으로 나타났습니다. 이러한 결과는 집단 지능이 규모만으로는 나타나지 않음을 시사합니다. 대신 현재 에이전트 사회의 지배적인 한계는 매우 희소하고 얕은 상호작용(sparseness and shallow interaction) 으로, 이는 에이전트들이 정보를 교환하고 서로의 출력에 기반을 두는 것을 방해합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Superminds 테스트: Probing Agents 를 통한 에이전트 사회의 집단 지능에 대한 능동적 평가

요약

핵심 포인트

댓글