OpenBioRQ: 에이전트를 위한 미해결 생물 의학 연구 질문들
요약
에이전트 모델의 인용 정확도와 생물 의학적 추론 능력을 검증하기 위한 새로운 벤치마크인 OpenBioRQ를 소개합니다. 12,553개의 미해결 질문을 통해 모델의 충실도와 도구 사용 능력을 평가하며, 기존 모델들의 한계와 에이전트 붕괴 현상을 분석합니다.
핵심 포인트
- OpenBioRQ: 12개 분야, 12,553개 질문으로 구성된 생물 의학 에이전트 벤치마크
- 에이전트가 인용된 논문이 주장을 실제로 뒷받침하는지 검증하는 능력 평가
- 최신 프런티어 에이전트들도 해결하지 못하는 높은 난이도와 변별력 확보
- 도구 사용의 효용이 사라지는 '에이전트 붕괴(agentic collapse)' 현상 관찰
작동하는 인용(citation)은 증거처럼 보이지만, 링크가 연결된다고 해서 인용된 논문이 해당 주장을 뒷받침한다는 의미는 아닙니다. 저는 현재의 에이전트 모델(agentic models)이 인용을 조작하는 경우는 드물지만(99% 이상이 연결됨), 약 15.9%는 잘못된 논문으로 연결된다는 것을 발견했습니다. 기존의 벤치마크(benchmarks)는 이러한 실패 모드(failure mode)를 놓치고 있습니다. 즉, 질문에 고정된 정답지(answer key)가 있는 경우, 모델은 해당 소스가 주장을 뒷받침하는지 독립적으로 검증하기보다 정답지로부터 기대되는 소스를 그대로 재현할 수 있습니다. 저는 12개 분야에 걸친 12,553개의 미해결 생물 의학 연구 질문으로 구성된, 검색 기반(retrieval-grounded) 에이전트 벤치마크인 \textbf{\openbiorq{}}를 소개합니다. 이 벤치마크는 개방형 질문을 충실도(faithfulness) 및 기권(abstention) 탐사 도구로 취급합니다. 제가 알기로, 이는 모델이 여러 번의 도구 호출(tool calls)을 수행해야 하는 에이전트 설정과 정답지가 없는 미해결 질문을 결합한 최초의 생물 의학 벤치마크입니다. 개방성은 모델의 파라미터 지식(parametric knowledge)이 아닌 실제 후속 증거를 통해 검증됩니다. 난이도는 경험적입니다. 저는 주관적인 어려움 라벨 대신, 세 가지 오픈 웨이트(open-weight) 참조 모델이 답하지 못한 질문들을 기준으로 난이도를 설정했습니다. 이 가장 어려운 하위 집합에서, 난이도 기준 모델과 동일한 계열의 홀드아웃(held-out) 모델들은 약 17%만을 해결한 반면, 세 가지 독립적인 프런티어 에이전트(Gemini-3-Pro, Opus-4.7, GPT-5.5)는 29-60%의 넓은 범위를 보였습니다. 따라서 이 벤치마크는 어렵고, 포화되지 않으며(최고의 에이전트도 여전히 약 33-40%를 해결하지 못함), 역량 계층 간의 변별력이 있습니다. 난이도를 넘어, 저는 가장 어려운 질문들에서 에이전트가 도구 사용을 중단하는 에이전트 붕괴(agentic collapse) 현상을 관찰했습니다. 붕괴에 가장 취약한 모델의 경우, 도구 접근을 완전히 차단해도 점수가 거의 변하지 않았습니다. 즉, 도구가 가장 절실히 필요한 시점에서 도구 사용의 효용이 사라지는 것입니다. 질문별로 고정된 체크리스트를 적용했을 때, 스피어만(Spearman) 상관계수는 0.35에서 0.82로 판정자 간 일치도가 상승했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기