WorldReasoner: 언어 모델 에이전트가 타당한 추론을 통해 사건을 예측하는지 평가하기
요약
언어 모델 에이전트가 불완전한 정보로 사건을 예측할 때, 단순 정답률을 넘어 추론의 타당성을 평가하는 프레임워크 WorldReasoner를 제안합니다. 이 벤치마크는 결과, 증거, 추론 품질의 세 가지 축을 통해 에이전트의 예측 능력을 다각도로 검증합니다.
핵심 포인트
- 단순 정답률이 아닌 추론 과정의 타당성을 평가하는 프레임워크 제시
- 결과 품질, 증거 품질, 추론 품질의 세 가지 상호 보완적 지표 활용
- 시간적 제약을 고려한 증거 접근 권한 부여로 실제 예측 환경 모사
- 시간적 검색 능력이 예측 정확도의 핵심 동인임을 확인
실제 세계의 사건을 예측하기 위해서는 언어 모델 에이전트 (language-model agents)가 불완전하고 시간적 제약이 있는 정보로부터 불확실성 하에 추론해야 합니다. 그러나 에이전트가 진정으로 예측을 수행하는지 평가하기 위해서는 최종 답변의 정확도 그 이상의 것이 필요합니다. 모델은 암기된 학습 사실을 회상하거나, 조작된 증거를 인용하거나, 근거 없는 인과 관계 이야기를 만들어냄으로써 정답을 맞힐 수도 있기 때문입니다. 우리는 시간적으로 타당한 사건 예측을 위한 평가 프레임워크인 WorldReasoner를 제시합니다. 각 태스크는 에이전트에게 해결된 예측 질문, 시뮬레이션된 예측 날짜, 그리고 해당 날짜 이전에 사용 가능한 증거에 대한 접근 권한만을 제공합니다. 사건이 해결된 후, 프레임워크는 제출된 확률, 인용된 증거, 그리고 선택 사항인 인과적 사건 그래프 (causal event graph)를 점수화합니다. WorldReasoner는 세 가지 상호 보완적인 축을 보고합니다: 해결된 정답 대비 결과 품질 (outcome quality), 인용된 출처 대비 증거 품질 (evidence quality), 그리고 사후 해결된 사후 인지 그래프 (hindsight graphs) 대비 추론 품질 (reasoning quality)입니다. 이 벤치마크는 예측 질문을 생성하고, 타임스탬프가 찍힌 증거를 수집하며, 사후 인지 참조 그래프를 대규모로 구축하는 에이전트 기반 구축 파이프라인 (agentic construction pipeline)을 통해 구축되었습니다. 이를 통해 14,141개의 기사에서 파생된 345개의 해결된 태스크를 생성하였으며, 그래프는 8,087개의 추출된 사건을 다룹니다. 6가지 통제된 에이전트 설정 전반에 걸쳐, 시간적으로 타당한 검색 (temporally valid retrieval)이 결과 정확도의 가장 강력한 동인이며, 인과 그래프 구축은 핵심 사건 회복을 개선합니다. 또한 그래프를 활용한 정확한 예측은 핵심 사건 및 관련 출처에 더 강력하게 근거를 두지만, 에이전트들은 여전히 근거 있는 증거를 보정된 확률 (calibrated probabilities)로 변환하는 데 어려움을 겪고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기