유명한 METR AI 타임 호라이즌(time horizons) 그래프에 수많은 심각한 오류가 포함되어 있음 [D]

요약

Nathan Witkin은 METR의 AI 타임 호라이즌 그래프가 데이터 편향, 추측된 베이스라인, 테스트 데이터 오염 등 심각한 결함을 포함하고 있다고 비판했습니다. 연구의 신뢰성을 저해하는 복합적인 오류들을 지적하며 더 높은 품질의 정보가 필요함을 강조합니다.

핵심 포인트

인간 베이스라인 데이터의 추측 및 표본 편향 문제
인센티브 구조로 인한 인간 작업 시간 측정 오류
테스트-훈련 데이터 오염(Contamination) 가능성
특정 코드베이스 숙련도 미고려로 인한 데이터 왜곡

NYU Stern의 Tech and Society Lab 연구 작가인 Nathan Witkin은 Substack 간행물인 Transformer에서 유명한 METR AI 타임 호라이즌 (time horizons) 그래프에 대해 비판적인 글을 작성했습니다:

METR의 Long Tasks 벤치마크 (benchmark)로부터 의미 있는 결론을 도출하는 것은 불가능합니다. 특히 그 수많은 결함이 아마도 예측 불가능한 방식으로 복합적으로 작용하고 있다는 점을 깨닫게 된다면 더욱 그렇습니다. 이러한 종류의 연구에 대한 적절한 대응은 대략적인 계산 (back-of-the-envelope adjustments)을 통해 이를 구제할 수 있다고 가정하거나, 다른 일화적인 증거 (anecdotal evidence)가 이를 아마도 맞을 것이라고 암시하므로 안심하는 것이 아닙니다. 손실을 감수하고 더 높은 품질의 정보를 찾아 떠나는 것이 적절한 대응입니다.

... METR 그래프는 구제될 수 없습니다. 그 매끄러움과 복잡함에도 불구하고, 용서하기에는 너무나 많은 복합적인 오류들을 포함하고 있습니다. 그중 하나는 저자들의 소수 동료 그룹으로부터 수집된 데이터를 전체 종(species)에 대해 일반화하는 것입니다. 이러한 실수를 저지르는 점점 더 극적인 방법을 고안해 내는 것이 AI 연구자들 사이에서 일종의 스포츠가 되었습니다. 만약 이 분야에 중심적인 병리 현상이 있다면, 그것은 파워 유저 (power-users)들의 일화적인 데이터와 METR보다 훨씬 더 타협된 긴 벤치마크 (benchmarks) 목록을 결합하여 공격적으로 과잉 지표화 (overindex)하는 것입니다. 이 분야가 성숙해짐에 따라 참여자들이 이러한 실수를 저지르는 것을 멈추는 법을 배우기를 바랍니다.

오류에는 다음이 포함됩니다:

일부 인간 베이스라인 (human baselines) 데이터는 실제로 어떤 경험적 소스 (empirical source)로부터 측정되거나 수집된 것이 아니라, 저자들이 단순히 추측 (guesstimated)한 것입니다.
데이터의 핵심 변수는 인간이 특정 작업을 완료하는 데 걸리는 시간입니다. 하지만 METR가 실제로 이를 측정했을 때, 인간 벤치마커들에게 시간당 급여를 지급했기 때문에, 이들이 더 오래 걸리도록 현금 인센티브를 받은 셈이 되었습니다.
인간 벤치마커 샘플이 METR 직원들의 친구, 지인 및 전 동료들에게 편향되어 있었습니다 (이들은 대표성이 없을 가능성이 높으며 편향되었을 수 있습니다).
코드베이스와 특정 코딩 작업에 익숙한 인간은 작업을 완료하는 속도가 5~18배 더 빨랐으나, METR는 코드베이스와 당면한 작업에 익숙해지는 데 시간을 소비해야 했던 훨씬 느린 인간의 데이터를 사용했습니다.
일부 작업의 해결책이 온라인에 공개되어 있었기 때문에 테스트-훈련 데이터 오염 (Test-training data contamination)이 발생했습니다. 이는 LLM의 훈련 데이터셋 (training datasets)에 포함되었을 가능성이 매우 높습니다.
그리고 그 외에도 훨씬 더 많은 오류가 있습니다.

전체 포스트를 읽어보시기 바랍니다. 그리 길지 않으며 일반 대중도 쉽게 이해할 수 있습니다. 전체 포스트를 읽고 METR 그래프를 생성하는 과정에서 얼마나 많은 오류가 발생했는지, 그리고 그 오류들이 얼마나 심각한지 확인해 볼 가치가 있습니다.

Nathan Witkin의 포스트에서 다루지 않은 METR 그래프의 더 많은 오류에 대해 읽고 싶다면, AI 연구자인 Gary Marcus와 Ernest Davis가 작성한 이 포스트를 읽어보세요.

METR 그래프는 왜 과학적 표준과 모범 사례 (best practices)가 그토록 중요한지, 그리고 잘못된 정보에 빠지는 것을 방지하기 위해 피어 리뷰 (peer review)와 같은 프로세스를 통해 이를 강제하는 것이 왜 필요한지를 보여주는 훌륭한 사례입니다. 겉으로만 과학적으로 보일 뿐, 실제로는 과학적 연구에 통상적으로 요구되는 엄격함 (rigour)을 갖추지 않은 정보에 의존하는 것은 매우 위험합니다.

AI 자동 생성 콘텐츠

원문 바로가기

유명한 METR AI 타임 호라이즌(time horizons) 그래프에 수많은 심각한 오류가 포함되어 있음 [D]

요약

핵심 포인트

댓글