진정한 연구자처럼 행동하기: 프론티어 LLM 및 연구 생애 주기 내 에이전트 하네스 평가를 위한 벤치마크 제품군
요약
에이전트가 실제 연구자의 전문성과 추론 능력을 얼마나 모방할 수 있는지 평가하는 AARR 벤치마크 시리즈를 제안합니다. 첫 번째 벤치마크인 AARRI-Bench 실험 결과, 최상위 모델 구성도 인간 연구자의 미묘한 세부 사항을 놓치는 한계를 보였습니다.
핵심 포인트
- AARR 벤치마크를 통한 연구 에이전트의 세밀한 평가 체계 제안
- 기존 벤치마크와 달리 전문성, 철저함, 미묘한 추론 능력에 집중
- Claude Opus 4.7 기반 에이전트의 성공률이 68.3%에 그침을 확인
- 단순 스캐폴딩 구축을 넘어 연구 행동에 대한 심층 탐구 필요성 강조
파운데이션 모델 (Foundation Models)이 발전하고 에이전트 스캐폴딩 (Agent Scaffolding)이 점점 더 정교해짐에 따라, 에이전트들은 복잡하고 장기적인 코딩 작업은 물론 자율적인 실험 실행에서도 놀라운 숙련도를 보여주었습니다. 연구 보조원에서 자율 연구 에이전트로 진화했음에도 불구하고, 이러한 시스템들은 여전히 분야별 민감도 (Field Sensitivity), 연구 윤리 (Research Ethics), 그리고 미묘한 과학적 판단 (Nuanced Scientific Judgment) 측면에서 상당한 한계를 보입니다. 결과적으로, 프론티어 에이전트들은 인간 연구자를 완전히 대체하기에는 여전히 역부족입니다. 이 격차를 해소하기 위해, 우리는 AARR (Act As a Real Researcher) 벤치마크 시리즈를 개념화했습니다. 주로 거시적 수준의 실행 능력을 평가하는 기존 벤치마크와 달리, AARR은 에이전트가 세밀한 연구 시나리오에서 인간 연구자의 특징인 전문성, 철저함, 그리고 미묘한 추론을 모방할 수 있는지에 초점을 맞춥니다. 본 연구에서는 이 시리즈의 첫 번째 벤치마크인 AARRI-Bench (Act As a Real Research Intern)를 제안합니다. 우리는 프론티어 모델과 에이전트 시스템 전반에 걸쳐 광범위한 실험을 수행하였으며, 가장 성능이 뛰어난 구성(Claude Opus 4.7을 사용한 Mini-SWE-Agent)조차 68.3%의 성공률만을 달성하며, 실제 인간 연구자에게는 명백한 미묘하지만 중요한 세부 사항들을 빈번하게 간과한다는 것을 밝혀냈습니다. 우리의 결과는 연구자 같은 AI를 개발하기 위해서는 단순히 복잡한 스캐폴딩 (Scaffolding)을 구축하는 것이 아니라, 연구 행동 (Research Behavior)에 대한 추가적인 탐구가 필요함을 시사합니다. 우리의 데이터는 https://github.com/AARR-bench/AARRI-bench 에 공개되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기