SciCode: Epoch AI, AI 연구 능력을 측정하는 벤치마크 출시

Epoch AI는 실제 연구 코딩 작업에서 LLM(대규모 언어 모델)을 테스트하는 SciCode 벤치마크를 출시했습니다. 상위 모델들의 점수가 30% 미만으로 나타나며, 코딩 벤치마크와 과학적 능력 사이의 격차를 드러냈습니다.

Epoch AI는 실제 과학 연구 코딩 작업에서 LLM을 평가하기 위한 벤치마크인 SciCode를 출시했습니다. 초기 결과에 따르면 상위 모델들이 30% 미만의 점수를 기록했으며, 이는 코딩 벤치마크와 진정한 연구 능력 사이의 격차를 강조합니다.

주요 사실

상위 LLM들은 SciCode 벤치마크에서 30% 미만의 점수를 기록함.
SciCode는 물리학, 화학, 생물학 분야의 문제들을 포함함.
Epoch AI는 추론 단계(reasoning steps)에 따라 난이도를 조절하도록 설계함.
이 벤치마크는 진정한 과학적 발견 능력을 측정하는 것을 목표로 함.

Epoch AI는 대규모 언어 모델(LLM)이 실제 과학 연구 코딩을 수행할 수 있는지 테스트하기 위해 설계된 새로운 벤치마크인 SciCode를 공개했습니다. 알고리즘 퍼즐이나 소프트웨어 엔지니어링 작업에 집중하는 기존 벤치마크와 달리, SciCode는 모델이 물리학, 화학, 생물학 전반에 걸친 실제 연구 논문에서 추출된 문제를 해결할 것을 요구합니다. 이 벤치마크에는 시뮬레이션 코드 구현, 실험 데이터 분석, 출판된 연구의 핵심 도표 재현과 같은 작업이 포함됩니다.

초기 결과는 현재 LLM의 역량과 과학 연구의 요구 사항 사이에 상당한 격차가 있음을 보여줍니다. Epoch AI의 평가에 따르면, GPT-5.5 및 Gemini 3.5 Pro를 포함한 가장 성능이 뛰어난 모델들조차 SciCode에서 30% 미만의 점수를 기록했습니다. 이는 SWE-Bench 및 HumanEval과 같은 표준 코딩 벤치마크에서 80% 이상의 점수를 기록하는 것과 대조되며, 기존의 평가 방식이 모델의 과학적 작업 기여 능력을 과장하고 있음을 시사합니다.

SciCode가 중요한 이유

이 벤치마크는 AI 연구 분야에서 커지는 긴장 상태를 다룹니다. LLM (Large Language Models)이 과학적 발견을 위한 도구로 점점 더 홍보되고 있는 반면, 그에 대한 평가는 여전히 좁은 범위에 머물러 있습니다. SciCode의 설계는 모델이 코딩 숙련도 (coding proficiency)를 도메인 지식 (domain knowledge) 및 다단계 추론 (multi-step reasoning)과 결합하도록 강제하며, 이는 연구 과학자의 작업 흐름 (workflow)을 반영합니다. 예를 들어, 한 과제는 응집 물질 물리학 (condensed matter physics) 논문에서 몬테카를로 시뮬레이션 (Monte Carlo simulation)을 구현하고 상전이 그래프 (phase transition plot)를 재현하는 것을 요구하는데, 이는 물리학적 이해와 코딩 기술을 모두 요구하는 도전적인 과제입니다.

Epoch AI의 접근 방식에는 새로운 난이도 확장 메커니즘 (difficulty scaling mechanism)도 포함되어 있습니다. 문제들은 요구되는 추론 단계의 수, 필요한 도메인 지식의 수준, 그리고 코드 솔루션의 길이에 따라 분류됩니다. 이를 통해 연구자들은 과학적 능력의 특정 차원 전반에 걸친 진전 상황을 추적할 수 있습니다.

AI 개발에 미치는 시사점

SciCode에서의 낮은 점수는 연구 환경에서의 AI 도입에 실질적인 시사점을 제공합니다. Google 및 OpenAI와 같은 기업들은 자사의 모델을 과학적 보조 도구로 포지셔닝해 왔으나, SciCode는 현재의 시스템들이 깊은 도메인 통합 (domain integration)을 요구하는 작업에는 여전히 신뢰하기 어렵다는 점을 시사합니다. Epoch AI에 따르면, 이 벤치마크는 모델이 발전함에 따라 진화하도록 설계되었으며, 포화 상태를 방지하기 위해 최신 논문에서 새로운 문제들을 추가합니다.

또한 이 벤치마크는 현재 LLM 학습의 구조적 약점을 강조합니다. 모델들은 GitHub와 같은 저장소(repositories)의 방대한 양의 코드로 학습되지만, 과학적 코드는 종종 특이하고(idiosyncratic), 문서화가 제대로 되어 있지 않으며, 기저에 깔린 이론에 대한 이해를 필요로 합니다. SciCode의 결과는 규모 확장 (scaling)만으로는 이 격차를 메우지 못할 수 있으며, 과학적 작업 흐름 (scientific workflows)에 대한 타겟팅된 학습이 필요할 수 있음을 시사합니다.

핵심 요약

Epoch AI가 실제 연구 코딩 작업(research coding tasks)을 통해 LLM을 테스트하는 SciCode 벤치마크를 출시했습니다.
상위 모델들의 점수가 30% 미만에 머물러, 코딩 벤치마크와 과학적 능력 사이의 격차를 드러냈습니다.

주목할 점

Benchmark Scores = General Capability + Claudiness

SciCode에서 50%를 돌파하는 첫 번째 모델이 등장하는지 주목하십시오. 이는 AI의 연구 능력(research capability)에 있어 의미 있는 진전을 나타낼 것입니다. Epoch AI는 최근의 프리프린트(preprints)를 바탕으로 분기마다 새로운 문제로 벤치마크를 업데이트할 계획입니다.

출처: news.google.com

[28 Jun 업데이트, epoch_ai_gradient_updates_gn를 통해]

Epoch AI는 또한 MirrorCode를 공개했습니다. 이는 AI가 소스 코드에 접근하지 않고 오직 프로그램의 동작을 관찰하는 것만으로 전체 소프트웨어 프로젝트를 재구축할 수 있는지 테스트하는 벤치마크입니다. 초기 결과에 따르면 모델들이 최대 10,000행까지의 프로그램을 성공적으로 재구성하지만, 그 임계값을 넘어서면 어려움을 겪는 것으로 나타났습니다 [Epoch AI에 따르면]. MirrorCode는 기존 코드베이스를 역공학(reverse-engineer)하고 복제하는 AI의 능력을 측정함으로써 SciCode를 보완하며, 이는 레거시 과학 소프트웨어(legacy scientific software)를 이해하는 데 필수적인 기술입니다.

원문 게시: gentic.news

SciCode: Epoch AI, AI 연구 능력을 측정하는 벤치마크 출시

요약

핵심 포인트

SciCode가 중요한 이유

AI 개발에 미치는 시사점

핵심 요약

주목할 점

댓글