새로운 프리프린트(Preprint) 공개!

요약

과학적 질문에 대한 증거 합성 능력을 평가하는 새로운 벤치마크 SciConBench를 소개합니다. 최첨단 AI 에이전트들이 단순 검색을 넘어 복잡한 과학적 결론을 도출하는 데 여전히 한계가 있음을 보여줍니다.

새로운 프리프린트(Preprint)를 공개합니다!

저희는 Cochrane 체계적 문헌고찰(Systematic Reviews)에서 추출한 9.11k개의 과학적 질문을 포함하는 새로운 벤치마크인 SciConBench를 소개합니다.

저희는 최첨단 AI 에이전트(AI agents)가 과학적 결론을 잘 합성(synthesize)하지 못한다는 증거를 발견했습니다.

@hayounggjung, @korolova 및 다른 분들과 함께 작성한 스레드입니다.

AI 시스템은 점점 더 단순히 증거를 검색하는 것을 넘어, 의사를 포함한 중대한 상황에서 사용되는 주장들을 검토하고 결론을 도출하고 있습니다.

하지만 이들이 누군가 이미 작성한 요약본을 찾아내는 것이 아니라, 실제로 증거를 합성하고 있는지 어떻게 알 수 있을까요?

기존의 벤치마크들은 검색(retrieval), 인용 근거 제시(citation grounding), 질의응답(QA), 또는 요약(summarization)과 같은 중간 단계의 기술들을 테스트합니다.

하지만 실제 세계의 과학적 합성(scientific synthesis)은 장기적 목표를 가진 작업(long-horizon task)입니다! 예를 들어, 증거를 찾고 > 필터링하고 > 품질을 평가하고 > 상충하는 내용을 조정하고 > 결론을 작성해야 합니다.

이를 테스트하기 위해, 저희는 Cochrane 체계적 문헌고찰 데이터베이스를 기반으로 구축된 라이브 벤치마크인 SCICONBENCH를 소개합니다.

각 항목은 과학적/임상적 질문과 체계적 문헌고찰에서 전문가가 작성한 결론을 쌍으로 연결합니다.

총 9.11K개의 질문과 결론이 포함되어 있습니다.

주요 과제는 데이터 누출(leakage)입니다.

만약 AI 에이전트가 온라인에서 Cochrane 리뷰나 그 파생 요약본을 단순히 찾아낼 수 있다면, 그것은 답을 합성하는 것이 아니라 *검색(retrieving)*하는 것입니다!

그래서 저희는 "클린룸 평가(clean-room evaluation)" 하네스(harness)인 SCICONHARNESS를 구축했습니다.

SCICONHARNESS는 에이전트에게 웹 검색, 브라우징, 논문 검색을 위한 제어된 도구를 제공하지만, 정답(ground-truth) 아티팩트(artifacts)는 필터링합니다:

Cochrane 링크, 일치하는 리뷰 제목, 그리고 리뷰 날짜 이후에 발표된 출처들을 필터링합니다.

이를 통해 지름길 검색이 아닌 합성을 측정할 수 있습니다!

그 후, 생성된 결론을 원자적 사실(atomic facts)로 분해하여 평가합니다.

각 답변에 대해 다음을 측정합니다:

결과는 놀랍습니다!

클린룸 평가 환경에서 가장 성능이 좋은 시스템인 o3-deep-research는 F1 = 0.337에 불과했습니다.

심지어 최첨단 모델(Frontier models)과 딥 리서치 에이전트(Deep research agents)조차 과학적 결론을 신뢰할 수 있게 합성하는 것과는 거리가 멉니다.

우리는 또한 만연한 사실적 품질(Factual quality) 문제도 발견했습니다.

시스템 전반에 걸쳐, 생성된 많은 결론이 참조 리뷰(Reference review)와 모순되는 사실을 적어도 하나 이상 포함하고 있습니다.

그리고 거의 모든 결론이 적어도 하나 이상의 근거 없는 사실을 포함하고 있으며, 이는 합성(Synthesis) 과정이 신뢰할 수 없음을 시사합니다.

AI 자동 생성 콘텐츠