코딩 에이전트는 과학적 머신러닝 (Scientific Machine Learning) 논문을 재현할 수 있다

과학적 머신러닝 (Scientific Machine Learning) 논문은 일반적으로 상대 평균 제곱 오차 (relative mean square error)가 5% 미만이라거나, 95% 예측 신뢰 구간 (predictive credible interval)이 테스트 데이터를 포함한다는 것과 같은 계산적 주장 (computational claims)을 합니다. 코딩 에이전트 (coding agent)에게 논문 자료만을 사용하여 이러한 주장들을 재현하도록 프롬프트를 제공할 수 있지만, 프롬프트 자체만으로는 진행 상황을 안정적으로 보존하거나 생성된 증거가 논문의 주장들을 뒷받침하는지 확인하기 어렵습니다. 우리는 선택된 각 논문 주장을 기록된 증거를 가진 목표 (target)로 만드는 워크플로우인 Paper-replication을 소개하며, 이를 코딩 에이전트 기술 (coding-agent skill)로 구현합니다. 이 워크플로우는 에이전트가 해당 목표들을 기록하고, 논문의 방법론을 재구성하며, 계산 실험을 수행하고, 생성된 출력을 출처 (provenance) 및 논문의 주장과의 비교에 연결하며, 일치하는 증거가 재현 보고서의 어느 부분에 나타나는지 기록하고, 완료 전 검증 체크 (validation checks)를 통과하도록 만듭니다. 우리는 4개의 과학적 머신러닝 논문에 대해 12회의 독립적인 실행을 통해 Paper-replication을 평가합니다. 12개의 워크스페이스 모두 완료 게이트 (completion gate)를 통과하였으며, 기록된 158개의 목표 모두 보고서 범위 (report coverage)와 일치했습니다. 이러한 완료된 워크스페이스 상태에서도, 반복된 실행은 논문이 목표로 분할되는 방식, 원본 논문에 대한 수치적 충실도 (numerical fidelity), 경과된 재현 시간, 최종 증거가 수락되기 전에 교체된 중간 실행 횟수, 그리고 증거 수락에 사용된 규칙 측면에서 차이를 보였습니다. Paper-replication은 완료 여부가 에이전트의 최종 메시지가 아닌 워크스페이스 증거와 검증 체크에 달려 있게 만듭니다.

Insights

코딩 에이전트는 과학적 머신러닝 (Scientific Machine Learning) 논문을 재현할 수 있다

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실