arXiv논문2026. 06. 23. 11:21

멀티모달 소스로부터의 과학적 큐레이션을 위한 에이전트 하네스 구축

요약

과학 논문의 텍text, 표, 그림 등 멀티모달 소스에서 구조화된 정보를 추출하는 에이전트 하네스 'Beaver'를 소개합니다. Beaver는 멀티모달 증거 툴링과 태스크 스캐폴딩을 통해 추론 과정을 감사 가능하게 만들며, 기존 에이전트 대비 높은 성능을 입증했습니다.

핵심 포인트

멀티모달 소스(텍스트, 표, 그림)를 활용한 과학적 데이터 큐레이션 에이전트 구축
증거 출처를 보존하며 단계별 '평가-진단-수정' 루프를 지원하는 하네스 설계
GRAS 지표에서 기존 최첨단 에이전트보다 23점 이상 높은 성능 달성
교차 모달 추론과 정규화가 필요한 고가치 속성 추출에서 큰 성능 향상 확인

과학적 발견 워크플로우(Scientific discovery workflows)는 종종 문헌으로부터의 구조화된 큐레이션(curation)에 의존합니다. 이는 현재의 에이전트들에게 매우 어려운 과제인데, 그 이유는 핵심 증거가 긴 텍스트, 조밀한 표, 그리고 그림(figures)에 흩어져 있으며, 최종 기록은 단일 구간을 복사하는 것이 아니라 여러 증거 파편들을 가로지르는 추론(reasoning)을 필요로 하는 경우가 많기 때문입니다. 우리는 멀티모달 소스로부터의 과학적 큐레이션을 연구하며, 지원 증거에 대한 출처(provenance)를 보존하면서 과학 논문으로부터 구조화된 정보를 추출하는 에이전트 하네스(agent harness)인 Beaver를 소개합니다. Beaver는 최첨단 에이전트(frontier agent)를 멀티모달 증거 툴링(multimodal evidence tooling), 태스크 스캐폴딩(task scaffolding), 그리고 아티팩트 기반 자동 연구(artifact-grounded autoresearch)와 결합합니다. 이러한 구성 요소들은 큐레이션을 단계적이고 감사 가능한(auditable) 워크플로우로 전환하며, 지속적인 실행 아티팩트(run artifacts)가 단계별로 국소화된 실패를 노출하고 하네스 업데이트를 안내하는 반복적인 '평가-진단-수정(evaluate--diagnose--revise)' 루프를 가능하게 합니다. 실험 결과, Beaver는 골드 큐레이션 기록(gold curated records)과의 일치도를 나타내는 속성 수준 측정 지표인 GRAS(Gold-Referenced Attribute Score)에서 81.0을 달성하였으며, 이는 최첨단 에이전트들보다 절대 수치로 23점 이상 높은 성능입니다. 절제 연구(Ablations)를 통해 태스크 스캐폴딩, 멀티모달 증거 툴링, 그리고 출처 추적(provenance traces)이 각각 성능에 유의미하게 기여함을 확인하였으며, 속성 수준 분석 결과 교차 모달 추론(cross-modal reasoning)과 정규화(normalization)가 필요한 고가치 속성에서 가장 큰 이득을 얻는 것으로 나타났습니다. 이러한 결과는 멀티모달 증거를 포함한 논문으로부터의 과학적 큐레이션에 있어, 하네스 설계가 에이전트 성능의 핵심 결정 요인임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티모달 소스로부터의 과학적 큐레이션을 위한 에이전트 하네스 구축

요약

핵심 포인트

댓글