arXiv논문2026. 06. 24. 12:07

AGORA: 아카이브 기반의 에이전트적 업무 문서 추론 벤치마크

요약

방대한 업무 문서 컬렉션에서 희소한 증거를 찾아 추론하는 능력을 평가하는 새로운 벤치마크 Agora를 소개합니다. 기존 모델들은 컨텍스트 윈도우를 초과하는 데이터 규모와 복잡한 탐색 요구사항으로 인해 낮은 정확도를 보였습니다.

핵심 포인트

아카이브 기반 추론 및 에이전트적 탐색 능력 평가
8개 도메인, 9,664개 문서로 구성된 대규모 데이터셋
문서 간 작업 합성 및 누출 방지 난독화 기술 적용
최상위 모델조차 59.4%의 낮은 정확도를 기록하며 과제 난이도 입증

대규모 언어 모델(Large language models)은 매개변수 지식(parametric knowledge)으로부터 답변하기보다는 문서에 대해 추론하는 에이전트(agents)로서 점점 더 많이 배치되고 있습니다. 우리는 아카이브 기반 추론(archive-grounded reasoning)을 연구합니다. 이는 방대하고 무질서한 업무 파일 컬렉션 전반에서 희소한 증거(sparse evidence)를 찾아내고, 일관되지 않은 용어, 단위, 시간 관례를 조정하며, 정답을 계산하는 과정을 포함합니다. 기존의 벤치마크들은 이러한 설정의 일부만을 다루고 있으며, 아카이브 기반성(archive-groundedness), 에이전트적 탐색(agentic exploration), 그리고 교차 도메인 커버리지(cross-domain coverage)를 공동으로 강조하는 것은 없습니다. 우리는 362개의 질문과 9,664개의 실제 문서 및 3억 7,200만 토큰으로 구성된 8개의 도메인 컬렉션을 결합한 벤치마크인 Agora를 소개합니다. 이는 어떤 모델의 컨텍스트 윈도우(context window)도 훨씬 초과하므로, 에이전트는 철저하게 스캔하기보다는 의도적으로 탐색(explore)해야 합니다. Agora는 문서 간 작업 합성(cross-document task synthesis), 누출 방지 난독화(leakage-preventing obfuscation), 그리고 난이도 필터링(difficulty filtering)을 결합한 에이전트적 파이프라인(agentic pipeline)을 통해 구축되었습니다. 8개의 모델을 평가한 결과, 우리는 이 과제가 해결과는 거리가 멀다는 것을 발견했습니다. 가장 강력한 모델조차 정확도가 59.4%에 불과하며, 도메인에 따라 상당한 차이를 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AGORA: 아카이브 기반의 에이전트적 업무 문서 추론 벤치마크

요약

핵심 포인트

댓글