arXiv논문2026. 05. 05. 10:24

코딩 에이전트가 계산 재료과학의 연구 결과를 재현할 수 있는가?

요약

본 논문은 대형 언어 모델(LLM) 기반 코딩 에이전트가 계산 재료과학 분야의 연구 결과를 얼마나 잘 재현할 수 있는지 평가하기 위해 AutoMat이라는 새로운 벤치마크를 제시합니다. 이 벤치마크는 불완전한 계산 절차 복원, 전문 도구 체인 탐색, 그리고 결과적 증거 분석 등 세 가지 상호 연관된 과제를 포함합니다. 실험 결과, 현재의 LLM 기반 에이전트들은 AutoMat에서 전반적으로 낮은 성공률(최고 54.1%)을 보였으며, 특히 논문 텍스트만으로는 복잡한 워크플로우를 재구성하는 데 어려움을 겪는 것으로 나타났습니다.

핵심 포인트

LLM 기반 코딩 에이전트의 성능은 소프트웨어 엔지니어링 영역에서 뛰어나지만, 계산 과학과 같은 도메인 특화 분야로 전이되는 데 한계가 있다.
AutoMat은 계산 재료과학 주장의 재현 가능성을 평가하는 새로운 벤치마크이며, 복잡한 워크플로우와 전문 지식 탐색 능력을 요구한다.
현재 에이전트들은 불완전하거나 맥락적 정보만으로 엔드투엔드 과학적 워크플로우를 성공적으로 복원하고 실행하는 데 어려움을 겪는다.
에이전트의 실패는 주로 불완전한 절차 재구성, 방법론적 편향, 그리고 실행 취약성에서 기인한다.

대형 언어 모델 (LLM) 은 점차 자율 코딩 에이전트로서 배포되며 소프트웨어 엔지니어링 벤치마크에서 놀라운 성능을 달성했습니다. 그러나 이러한 성공이 계산 과학 워크플로우로 전이되는지 명확하지 않습니다. 여기서 작업은 강력한 코딩 능력뿐만 아니라 복잡한 도메인 특화 절차 탐색과 과학적 주장의 맥락에서 결과를 해석할 능력을 필요로 합니다. 이 질문에 답하기 위해 우리는 계산 재료과학의 주장에서 에이전트의 재현 능력을 평가하는 벤치마크인 AutoMat을 제시합니다. AutoMat 는 세 가지 상호 연관된 과제를 제기합니다: 불완전한 계산 절차 복원, 전문 도구 체인 탐색, 그리고 결과적 증거가 주장을 지지하는지 결정하기 위해. 주제 전문가와 밀접하게 협력하여 실제 재료과학 논문에서 주장의 집합을 선별하여 코딩 에이전트가 (또는 약화) 이러한 주장을 지원하기 위한 엔드 투 엔드 워크플로우를 복원하고 실행할 수 있는지 테스트합니다. 우리는 여러 기반 모델에 걸쳐 여러 대표적 코딩 에이전트 설정을 평가했습니다. 우리의 결과는 현재 LLM 기반 에이전트가 AutoMat 에서 전반적인 성공률이 낮게 달성함을 보여줍니다. 가장 잘 수행된 설정은 성공률이 54.1% 만 달성함. 오차 분석은 워크플로우가 논문 텍스트만에서 재구성될 때 에이전트의 성능이 가장 나쁘며, 불완전한 절차, 방법론적 편차, 실행 취약성으로 인해 주로 실패함을 보여줍니다. 이러한 발견들은 AutoMat 를 계산 과학 재현 가능성 벤치마크이자 AI for science 설정에서 에이전트 시스템의 현재 한계를 진단하는 도구로 위치시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

코딩 에이전트가 계산 재료과학의 연구 결과를 재현할 수 있는가?

요약

핵심 포인트

댓글