DEI: Quality-Diversity 탐색을 위한 진화적 추론에서의 다양성
요약
DEI는 이질적인 LLM들을 변이 연산자로 활용하여 분산형 Quality-Diversity 탐색을 수행하는 프레임워크입니다. 모델 간의 창의적 사전 확률 차이를 활용해 단일 모델이나 균질적 앙상블보다 높은 탐색 성능과 커버리지를 달성함을 입증했습니다.
핵심 포인트
- 이질적 LLM 앙상블을 통한 분산형 QD 탐색 프레임워크 제시
- 모델 간의 다양성이 탐색 성능과 커버리지 향상의 핵심 동력임 확인
- Core War 벤치마크에서 단일 노드 대비 QD-Score 124% 향상 달성
- 균질적 앙상블보다 높은 솔루션 일반성 및 강건성 입증
우리는 비차단 집합 연산 (non-blocking collective operations)으로 통신하는 피어 노드 (peer nodes) 전반에 걸쳐 이질적인 대규모 언어 모델 (LLMs)을 변이 연산자 (mutation operators)로 할당하는 분산형 Quality-Diversity (QD) 탐색 프레임워크인 DEI: Diversity in Evolutionary Inference를 제시합니다. 단일 모델의 귀납적 편향 (inductive biases)을 모든 워커 (worker)에 복제하는 균질적 병렬 탐색 (homogeneous parallel search)과 달리, DEI는 각 LLM의 독특한 창의적 사전 확률 (creative prior)을 행동적 참신함 (behavioral novelty)의 상호 보완적인 원천으로 취급합니다. DEI를 통해 Digital Red Queen 프레임워크를 확장하여, 노드들은 각 라운드가 끝날 때 지역 최적해 (local optimal solutions)를 공유하여 다음 라운드의 개체군 (population)을 위한 시드 (seed)로 사용합니다. 이는 모델 내부의 셀프 플레이 (self-play)를 넘어 강건성 (robustness)을 추진하는 모델 간 적대적 압력 (cross-model adversarial pressure)을 생성합니다. 시뮬레이션된 머신 내부에서 Redcode 전사 프로그램들이 전투를 벌이는 경쟁 프로그래밍 벤치마크인 Core War 도메인에서 평가한 결과, 4개 노드의 이질적 앙상블 (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, Claude Haiku 4.5)은 동일한 총 LLM 호출 예산 하에서 단일 노드 베이스라인보다 124% 더 높은 병합 아카이브 QD-Score (45.90 대 20.46)와 28% 더 높은 커버리지 (80.6% 대 63.0%의 셀)를 달성했습니다. 또한 이 이질적 앙상블은 QD-Score, 커버리지, 그리고 4개 모델 제품군 전체에 걸친 홀드아웃 솔루션 일반성 (held-out solution generality) 측면에서 동일한 예산을 가진 균질적 앙상블 (homogeneous ensemble)보다 우수한 성능을 보였습니다. 이러한 결과는 단순한 병렬성이 아니라 모델의 다양성 (model diversity)이 분산형 LLM 기반 QD 탐색에서 이득을 얻는 핵심 동력이라는 첫 번째 실증적 증거를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기