OpenAI중요헤드라인2026. 04. 24. 22:42

AI의 과학 연구 수행 능력 평가

요약

OpenAI가 AI의 전문적인 과학적 추론 능력을 평가하기 위한 새로운 벤치마크, FrontierScience를 발표했습니다. 이 벤치마크는 물리학, 화학, 생물학 등 세 분야에서 전문가 수준의 지식과 문제 해결 능력을 측정합니다. 특히 기존의 객관식 위주 벤치마크의 한계를 극복하고, 올림피아드 스타일 추론(Olympiad)과 실제 연구 과제 수행 능력(Research) 두 가지 트랙으로 구성되어 있습니다. 초기 평가에서 GPT-5.2가 높은 점수를 기록하며 AI 과학 가속화에 대한 기대감을 높였습니다.

핵심 포인트

FrontierScience는 물리학, 화학, 생물학 등 3개 분야의 전문가들이 제작한 새로운 과학 추론 벤치마크입니다.
두 가지 트랙으로 구성되어 있습니다: 올림피아드(Olympiad) 트랙은 국제 대회 수준의 이론적 추론을 측정하며, 연구(Research) 트랙은 실제 PhD급 연구 과제 수행 능력을 평가합니다.
GPT-4 대비 GPT-5.2는 GPQA 벤치마크에서 점수가 크게 향상된 바 있으며, FrontierScience에서도 우수한 성능을 보여주었습니다 (Olympiad: 77%, Research: 25%).
이 벤치마크의 목표는 AI가 단순 지식 검색을 넘어 복잡하고 개방형(open-ended)인 과학 연구 워크플로우를 가속화하는 능력을 측정하는 것입니다.

우리는 물리학(physics), 화학(chemistry), 생물학(biology) 전반에 걸쳐 전문가 수준의 과학적 추론 능력을 평가하는 새로운 벤치마크인 FrontierScience를 소개합니다.

추론은 과학 작업의 핵심입니다. 과학자들은 단순히 사실을 기억하는 것을 넘어, 가설을 생성하고 이를 테스트하며 개선하고, 분야 간 아이디어를 종합합니다. 우리의 모델들이 더욱 강력해짐에 따라, 그 중심 질문은 이 모델들이 어떻게 깊이 있게 추론하여 과학 연구에 기여할 수 있느냐 하는 것입니다.

지난 한 해 동안, 우리의 모델들은 국제 수학 올림피아드(International Math Olympiad)와 국제 정보 올림피아드(International Olympiad in Informatics)에서 금메달급 성과를 달성하는 등 주요 이정표에 도달했습니다. 동시에, GPT-5와 같은 가장 강력한 모델들이 실제 과학 워크플로우를 의미 있게 가속화하기 시작하고 있습니다. 연구자들은 이러한 시스템을 학제 간(across disciplines) 및 언어 전반의 문헌 검색(literature search)이나 복잡한 수학적 증명(complex mathematical proofs) 작업을 수행하는 데 사용하고 있습니다. 많은 경우, 이 모델은 며칠 또는 몇 주가 걸릴 수 있는 작업을 몇 시간으로 단축시킵니다. 이러한 발전은 2025년 11월에 발표된 논문 'Early science acceleration experiments with GPT-5'에 문서화되어 있으며, 해당 논문은 GPT-5가 과학 워크플로우를 측정 가능하게 가속화할 수 있다는 초기 증거를 제시합니다.

과학적 진보의 가속화는 AI가 인류에게 혜택을 줄 수 있는 가장 유망한 기회 중 하나이므로, 우리는 어려운 수학 및 과학 과제에 대한 모델 개선과 과학자들이 이를 최대한 활용하는 데 도움이 될 도구 개발에 주력하고 있습니다.

2023년 11월, 박사급 전문가들이 작성한 질문으로 구성된 'Google-Proof' 과학 벤치마크인 GPQA가 공개되었을 때, GPT-4는 70%의 전문가 기준선(expert baseline)에 미달하는 39%를 기록했습니다. 2년 후에는 GPT-5.2가 92%를 기록했습니다. 모델들의 추론 및 지식 능력이 계속 확장됨에 따라, 모델이 과학 연구를 가속화할 수 있는 능력을 측정하고 예측하기 위해서는 더욱 어려운 벤치마크가 중요해지고 있습니다. 이전의 과학적 벤치마크들은 주로 객관식 질문(multiple-choice questions)에 초점을 맞추거나, 포화 상태이거나, 과학 자체에 중점적으로 초점을 맞추지 않았습니다.

이러한 격차를 해소하기 위해, 우리는 전문가 수준의 과학적 능력을 측정하도록 설계된 새로운 벤치마크인 FrontierScience를 도입합니다. FrontierScience는 물리학, 화학, 생물학 전반의 전문가들에 의해 작성되고 검증되었으며, 어렵고 독창적이며 의미 있는 질문들로 구성된 수백 개의 질문을 포함합니다. FrontierScience는 두 가지 트랙의 질문을 포함합니다: 올림피아드(Olympiad) 트랙은 올림피아드 스타일의 과학적 추론 능력을 측정하며, 리서치(Research) 트랙은

AI 자동 생성 콘텐츠

원문 바로가기

AI의 과학 연구 수행 능력 평가

요약

핵심 포인트

댓글