코딩 에이전트는 논문의 SOTA를 넘을 수 있을까: NatureBench

코딩 에이전트에게 "이 논문의 수법을 구현해서, 보고된 정밀도를 넘어서 봐"라고 부탁한다면 어디까지 가능할까. 재현(reproduction)이라면 GitHub의 README대로 움직이면 끝날 문제지만, 논문에 실린 최고 정밀도(SOTA, state of the art)를 스스로 **상회(surpass)**하게 된다면 그것은 이미 발견(discovery)의 영역이다. Tsinghua University 등의 연구 그룹이 6월 23일에 공개한 NatureBench는 바로 이 경계를 측정하러 간 벤치마크로, 결과는 현역 엔지니어의 직감과 일치하는 방향으로 나타났다. 최강의 구성이라 해도, SOTA를 넘은 것은 전체 과제의 17.8%에 그쳤다.

NatureBench의 과제는 Nature 계열의 피어 리뷰(peer-reviewed) 논문 90편에서 추출한 90개의 태스크로 구성된다. 대상은 6개 분야에 걸쳐 있다. 세포 오믹스(Cell Omics), 단백질 생물학(Protein Biology), 생물의학 모델링(Biomedical Modeling), 물리 모델링(Physical Modeling), 분자 설계(Molecular Design), 그리고 관계 추론(Relational Reasoning)이다. 모두 "데이터를 전달받아 논문과 동일한 예측 태스크를 모델로 해결한다"는 형태로 설계되어 있다.

핵심은 스코어의 정의에 있다. 각 태스크에서 에이전트가 낸 지표값 m을 논문의 SOTA 값 m_sota와 비교하여, 방향을 맞춘 상대적 격차 g를 계산한다.

g = dir · (m − m_sota) / |m_sota|

dir은 "정밀도는 높을수록 좋다", "오차는 낮을수록 좋다"와 같은 지표의 방향을 ±1로 나타내는 계수다. 이 g를 사용하여 두 가지 달성도를 구분한다. g ≥ 0이면 논문에 도달한 것(Match-SOTA), g > 0.1이면 논문을 10% 이상 앞서 나간 것(Surpass-SOTA)이다. "대략 재현했다"와 "논문을 명확히 초과했다"를 동일한 잣대 위에서 연속적으로 구분해낸 점이 탁월하다.

이러한 종류의 벤치마크가 신뢰받기 어려운 가장 큰 이유는, 에이전트가 원문 논문이나 원본 데이터셋을 웹에서 가져와 답을 베껴 쓸 수 있기 때문이다. NatureBench는 그 부분을 2단계로 차단하고 있다.

먼저 환경 측면이다. NatureGym이라는 자동 파이프라인이 논문 1편으로부터 태스크마다 독립된 Docker 컨테이너를 생성한다. 그 내부에는 태스크 설명, 논문의 데이터셋, 정답을 숨긴 held-out 테스트 세트, 그리고 자동 평가기가 들어 있다. 에이전트에게 보이는 problem/과 평가 전용으로 숨겨진 evaluation/이 디렉토리 레벨에서 분리되어 있다. 과거 에이전트 평가에서 문제가 되곤 했던 "환경 구축이 태스크마다 제각각이라 비교가 불가능하다"는 문제를 컨테이너 표준화로 해결한 설계다.

그 위에 모든 에이전트의 웹 검색을 무효화한다.

All agents disable web search, preventing them from retrieving the source dataset or paper content as a shortcut.

나아가 실행 후에는 Claude Sonnet 4.6을 심판으로 세워, 출력의 날조, 학습 대신 규칙을 교체하는 행위, 숨겨진 정답의 복원, 피드백의 악용, 훈련 우회와 같은 부정행위가 없는지 사후 체크하여 걸러낸다. 웹 검색을 차단하는 판단은 Codex가 왜 기본적으로 라이브 페이지를 가져가지 않는가에 대한 논의와도 맞닿아 있으며, 벤치마크 세계에서는 "검색할 수 있다는 것"이 즉시 노이즈가 된다는 결단이 명확히 드러나 있다.

10종류의 프론티어 에이전트 구성을 돌린 결과는 다음과 같다(Surpass=SOTA 초과, Match=SOTA 도달).

모델	SOTA 초과	SOTA 도달
Claude Opus 4.7	17.8%	47.8%
...

톱 모델인 Claude Opus 4.7조차 절반이 조금 안 되는 과제에서 논문에 도달했을 뿐, 명확히 초과하는 것은 2할을 밑돈다. 주목해야 할 점은 이 숫자 자체보다, 어떻게 이긴 과제를 이겼는지에 대한 내역이다. 성공한 실행 중 45.5%가 "지도 학습 기반의 대리 예측(supervised proxy prediction)", 즉 과학 문제를 익숙한 예측 태스크로 번역하여 해결하고 있었다. 튜닝(Tuning) 17.6%, 엔지니어링 파이프라인 정비 11.0%, 사전 학습 및 스케일링(Pre-training/Scaling) 8.6%를 더하면, 성공의 82.7%가 분야 고유의 과학적 통찰이 아닌 범용적인 ML 공학으로 설명이 가능하다.

실패 측면도 시사하는 바가 크다. 방법론 선택 자체를 잘못하는 경우(45.1%)와 계산 예산(computational budget)이 부족한 경우(24.4%)가 대부분을 차지한다. 논문의 문제 설정(problem setting)을 이해하지 못해 실패하는 케이스는 1할을 조금 넘는 수준에 불과하다. 에이전트는 "문제는 읽을 수 있다. 하지만 새로운 풀이법을 생각해내는 것이 아니라, 가지고 있는 틀에 억지로 끼워 맞춰 밀어붙이는" 경향이 뚜렷하게 나타난다.

벤치마크, NatureGym 파이프라인, 리더보드(leaderboard)는 모두 MIT 라이선스로 공개되어 있다(태스크 내의 제3자 데이터는 개별 표기를 따른다). Claude Code, Codex, Gemini CLI, 그리고 직접 만든 에이전트를 투입하여 평가할 수 있다.

git clone https://github.com/FrontisAI/NatureBench.git
cd NatureBench
conda env create -f conda_env.yml
...

GPU를 나열하여 Docker를 구동하는 것을 전제로 하므로 개인용 노트북에서 바로 테스트하기는 어렵지만, gpu_low와 같은 경량 서브셋(subset)이 준비되어 있다는 점은 양심적이다.

실무적인 관점에서 보면, 이 결과는 "코딩 에이전트는 쓸모없다"는 이야기가 전혀 아니다. 오히려 반대로, 지도 학습(supervised learning) 기반의 예측 문제나 파이프라인 정비와 같이 형식이 정해진 작업이라면, 프론티어 모델(frontier model)은 이미 논문 수준에서 경쟁할 수 있는 역량을 갖추고 있다. SWE-Bench 계열의 소프트웨어 과제에서 확인되었던 강점이 과학 계산(scientific computing) 도메인에서도 무너지지 않고 유지되고 있다. 반면, 풀이의 프레임워크 자체를 새롭게 발명하는 작업은 아직 인간이 문제를 추출하여 에이전트에게 전달하는 전 단계가 필요하다. NatureBench는 에이전트에게 맡길 단위를 "탐색"이 아닌 "구현과 최적화"에 두어야 한다는 설계 판단을 수치로 뒷받침해 준다.

논문, 코드, 리더보드는 아래에서 확인할 수 있다.

코딩 에이전트는 논문의 SOTA를 넘을 수 있을까: NatureBench

요약

핵심 포인트

댓글