
AI는 결함을 인지하고도 고치지 않는다, OpenAI의 GeneBench-Pro가 측정하는 격차
요약
OpenAI가 공개한 GeneBench-Pro는 AI 에이전트가 데이터의 결함을 인지하더라도 이를 실제 분석 과정에 반영하여 행동을 수정하는지 측정하는 벤치마크입니다. 실험 결과, 최상위 모델조차 데이터 이상을 인지하고도 올바른 분석 경로를 선택하는 데 큰 어려움을 겪는 것으로 나타났습니다.
핵심 포인트
- GeneBench-Pro는 다단계 판단이 필요한 에이전트의 실행 능력을 평가함
- 모델이 데이터의 이상치를 인지하더라도 이를 행동 수정으로 연결하지 못하는 격차 확인
- 최상위 모델인 GPT-5.6 Sol조차 합격률이 약 28.7%에 불과함
- 단순 지식 문제가 아닌, 판단의 의존 관계를 따라가는 장거리 태스크 수행 능력이 핵심
AI 에이전트가 데이터 분석에서 좌절할 때, 원인은 대개 "지식이 부족해서"라고 생각하기 쉽다. 하지만 실제로 에이전트를 구동해 보면 더 까다로운 실패가 눈에 띈다. 데이터의 이상을 제대로 인지하고, 사고 로그(thinking log) 속에서 "배치 효과(batch effect)가 있을지도 모른다"라고 말하면서도, 그 인지를 다음 단계에 반영하지 않고 처음의 방침 그대로 끝까지 달려버린다. 지적은 할 수 있지만, 행동을 바꿀 수는 없는 것이다.
OpenAI가 6월 30일에 공개한 평가 벤치마크 GeneBench-Pro는 바로 이 "인지하고도 움직이지 못하는" 격차를 수치로 드러내도록 설계되어 있다. 소재는 계산 생물학(유전체 분석 및 임상 데이터의 통계 분석)이지만, 측정하는 것은 훨씬 보편적인 것으로, 다단계 판단이 연쇄되는 분석 태스크를 에이전트가 마지막까지 완수할 수 있는가 하는 문제다.
논문(PDF)에 따르면, GeneBench-Pro는 129개의 문제로 구성되어 있다. 각 문제에서 에이전트에게 주어지는 것은 단 두 가지다. 연구실이나 EHR(전자 건강 기록)에서 막 도착한 것처럼 의도적으로 오염시킨(결측치, 이상치, 배치 효과 등을 심어놓은) 데이터셋과, "무엇을 추정하기를 원하는가" (target estimand = 목표 추정량)를 적은 최소한의 프롬프트(prompt)다. 어떤 절차로 풀지는 일절 지시되지 않는다.
핵심은 각 문제가 3~13개(중앙값 6개)의 결정 포인트(decision points) 연쇄로 이루어져 있다는 점이다. 결정 포인트란, 그럴듯한 오선택을 하면 이후의 분석 전체가 전혀 다른 것이 되어버리는 분기점을 가리킨다. 상류의 품질 관리(QC)나 모델 선택을 하나 잘못 선택하면, 그 오류가 하류로 전파되어 최종 수치가 어긋나고 오답이 된다. 즉, 단발적인 지식 문제가 아니라 판단의 의존 관계를 따라가는 장거리 태스크다.
에이전트가 놓이는 환경도 구체적이다.
# 격리 워크스페이스(인터넷 연결 없음)
Python: numpy, pandas, scipy, scikit-learn, statsmodels, lifelines, matplotlib, seaborn
유전체계 도구: PLINK 2.0, pysnptools, bed-reader, bedtools, pysam
...
채점은 부분 점수가 없는 이진(binary) 방식이다. 중간 과정의 단계를 몇 개나 올바르게 밟았더라도, 마지막 의사결정과 관련된 답을 틀리면 0점이 된다. 논문은 이것이 의도적인 설계라고 명시하고 있다.
중간 단계를 몇 가지 올바르게 실행했더라도, 의사결정과 관련된 답을 잘못 내놓은 에이전트는 그 분석의 자동화에 성공하지 못한 것이다.
현장 감각으로서 이 단호한 기준은 옳다. 분석 파이프라인은 "80% 맞다" 정도로는 신뢰하여 의사결정에 사용할 수 없기 때문이다.
결과를 보면 아직 전혀 제대로 수행하지 못하고 있다. 전체 129문제에서의 합격률(각 모델의 최상급 추론 설정)을 추출하면 다음과 같다.
| 모델 | 합격률(129문항) |
|---|---|
| GPT-5.6 Sol(최대 추론) | 28.7% |
| ... |
최상위인 GPT-5.6 Sol조차 Pro 버전에서 3할 남짓이다. 원형이 된 구형 GeneBench를 만들 당시, 당시의 프론티어였던 GPT-5는 5% 미만이었다고 하니 성장하고는 있다. 그럼에도 7할은 탈락한다.
흥미로운 점은 실패의 질이다. OpenAI는 트레이스 분석(trace analysis)을 통해, 강력한 모델일수록 "데이터의 이상이나 통계적인 위화감을 인지하는" 능력 그 자체는 이미 높다고 밝혔다. 차이가 발생하는 지점은 그 관찰을 구체적인 수정이나 수법의 재선택으로 변환하여, 분석을 올바른 경로에 다시 태울 수 있느냐 하는 것이다. 논문은 이를 인간의 숙련자와 초보자의 차이에 비유한다. 초보자도 이상은 인지하지만, 그것을 문제 전체의 문맥에 통합하여 다음 판단을 바꾸지는 못한다.
에이전트 개발을 하다 보면 이 묘사는 생물학에 국한되지 않고 와닿는다. 도구 실행 도중에 경고를 접하고도 그대로 당초의 플랜을 완수해 버리는 거동은, 코딩 에이전트든 데이터 분석 에이전트든 일상적으로 볼 수 있다. GeneBench-Pro의 가치는 그 "notice-act gap(인지와 행동의 격차)"을 인상론이 아닌 합격률이라는 하나의 숫자로 떨어뜨린 데에 있다.
개인적으로 가장 배움이 컸던 것은 문제 제작 방식이다. GeneBench-Pro의 129문항은 실재 데이터가 아니라 모두 데이터 생성 과정(DGP)까지 포함하여 시뮬레이션되어 있다. 여기에는 평가 설계상 명확한 이유가 있다.
실재하는 역사적 데이터에 사후적으로 다단계 질문을 매다는 기존 방식에는 함정이 있다. 현실의 데이터에는 '그럴듯하게 정당화할 수 있는 분석 경로'가 여러 개 존재한다. 논문의 표현을 빌리자면 '갈라지는 소로의 정원(garden of forking paths)'이다. 3단계의 QC(품질 관리)를 부과했을 때, 출제자가 예상하지 못한 다른 타당한 선택지가 각 단계에 숨어 있다면, 그 길을 선택한 에이전트(Agent)는 정답에 도달하더라도 오답으로 채점된다. 그렇게 되면 추론 체인(Reasoning Chain)이 길어질수록 합격률이 자연스럽게 감쇠하며, 벤치마크가 '추론의 질'을 측정하는 것인지 '출제자의 선호도와의 일치 여부'를 측정하는 것인지 구분할 수 없게 된다.
GeneBench-Pro는 인과 구조를 스스로 결정하여 데이터를 생성함으로써, 정답이 생성 파라미터 그 자체가 아니라 '주어진 데이터로부터 복원 가능한 양'이 되도록 설계하였으며, 그럴듯한 오답이 명확한 차이로 벗어나는지를 아블레이션(Ablation, 요인을 하나씩 변형하며 검증하는 것)을 통해 확인하고 있다. 설계 지침으로서, 근처에 있는 타당한 임계값(Threshold)의 변동에는 둔감하고, 과학적으로 필요한 공정의 결핍에는 민감하게 반응하는 특성을 목표로 한다. 또한 129문항 중 82문항은 외부 전문가의 리뷰를 거쳤다.
에이전트 평가 체계를 구축하는 사람으로서, 이는 소재가 생물학인지 여부와 관계없이 유효한 발상이다. 다단계 태스크 평가에서 합격률이 떨어졌을 때, 그것이 모델의 약점인지 채점의 모호함 때문인지를 분리해내지 못한다면 그 수치는 개선의 지침이 될 수 없다. 답을 일의적으로 복원할 수 있도록 합성 데이터(Synthetic Data)로 발판을 마련한다는 자세는, 자체적인 에이전트 평가에도 그대로 이식할 수 있다.
OpenAI는 129문항 중 10문항을 프롬프트, 데이터, 채점기, 그리고 상세한 케이스 스터디(Case Study)와 함께 Hugging Face에 공개했다.
나머지는 오염 방지를 위한 단계적 출시 방식으로, 50문항은 제3자 평가용으로 Artificial Analysis에, 69문항은 내부 홀드아웃(Holdout)으로서 비공개 상태다. 주의할 점은, 이 난이도 높은 제3자용 50문항에서는 합격률이 더욱 크게 떨어진다는 점이다(예를 들어 Claude Opus 4.8은 최대 추론 시 129문항 전체의 16.0%에 비해 이 서브셋에서는 4.8%에 불과함). 따라서 공개된 부분의 인상보다 실제 실력의 천장은 더 낮다. 이 수치는 '아직 전혀 제대로 수행하지 못하고 있다'는 사실을 뒷받침하는 근거로 받아들여야 한다.
계산 생물학 전문가가 아니더라도, 공개된 10문항의 케이스 스터디는 읽어볼 가치가 있다. QC와 모델 선택의 분기점에서 AI가 어디서 경로를 이탈하는지 구체적으로 관찰할 수 있으며, 이는 당신이 만들고 있는 분석 에이전트의 신뢰성을 고민하는 재료가 된다. 지능 경쟁이 포화 상태에 다다르고 있는 지금, 다음에 유효한 것은 '인지한 것을 행동으로 바꾸는' 제어(Control)의 설계라는 것이, 이 벤치마크가 던지는 조용한 주장이라고 나는 읽었다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기