LLM 자동화 서사의 결함
요약
LLM의 성능 평가가 학습 데이터에 포함된 콘텐츠에 의존하고 오류의 크기를 간과하고 있음을 지적합니다. 새로운 벤치마킹 방식을 통해 LLM의 응답 분산과 오류 크기를 측정한 결과, 인간 전문가가 LLM보다 더 높은 성능과 낮은 변동성을 보임을 입증했습니다.
핵심 포인트
- 기존 LLM 벤치마크의 데이터 오염 및 오류 측정 한계 지적
- 코드 작성 작업을 통한 새로운 LLM 벤치마킹 방법론 제안
- LLM은 인간 전문가보다 성능 변동성이 크고 오류가 잦음
- 신뢰성이 중요한 작업에서 분산 및 오류 크기 측정의 중요성 강조
대규모 언어 모델 (LLMs)은 지식 경제 (knowledge economy) 작업에서 인간 전문가 수준의 성능을 발휘한다고 점점 더 많이 묘사되고 있습니다. 이러한 주장들은 주로 표준화된 데이터셋 전반에 걸친 평균 성능을 측정하는 벤치마킹 (benchmarking) 작업에서 LLM이 어떻게 수행되는지에 기반하고 있습니다. 많은 벤치마킹 작업의 주요 한계점은 LLM 학습 데이터에 직접 포함된 콘텐츠를 기반으로 성능을 측정하는 경우가 많으며, LLM 성능의 신뢰성이나 LLM 오류의 크기를 빈번하게 평가하지 않는다는 점입니다. 그러나 이해관계가 큰 (high stakes) 맥락에서는 이러한 특성들이 매우 중요합니다. 데이터 분석 작업을 완료하기 위해 컴퓨터 코드를 작성해야 하는 새로운 LLM 벤치마킹 작업을 통해, 우리는 프런티어 LLM (frontier LLM)의 성능을 인간 전문가의 제출물과 비교하고, 응답의 분산 (variance)과 오류의 크기 (magnitude of errors)를 명시적으로 측정합니다. 우리의 연구는 인간 전문가가 다양한 지표에서 평균적으로 더 나은 성능을 보이며 성능의 변동성 (variability)이 더 적음을 보여줍니다. 우리의 결과는 LLM이 일관되게 인간 전문가 수준의 성능을 발휘하지 않는다는 증거를 제공하며, LLM 벤치마크 평가에서 분산을 측정하고 오류 크기를 평가하는 것의 중요성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기