본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 10. 11:16

우리는 지식을 평가하는가, 아니면 표현 방식을 평가하는가? ParaEval을 통한 MCQA 민감도 완화

요약

MCQA 벤치마크가 정답의 표현 방식에 민감하게 반응하여 모델의 실제 능력을 왜곡하는 문제를 지적합니다. 이를 해결하기 위해 패러프레이즈를 활용하여 성능 격차를 줄이는 새로운 평가 프레임워크 ParaEval을 제안합니다.

핵심 포인트

  • 표준 MCQA 지표는 정답의 표면적 표현 방식에 과도하게 민감함
  • 동일 지식 모델 간에도 표현 방식 차이로 인해 성능 격차가 발생함
  • ParaEval은 패러프레이즈를 통해 잘못된 성능 격차를 1점 미만으로 완화함
  • 70B 및 120B 오픈 소스 모델에서도 ParaEval의 효과가 입증됨

객관식 (MCQA) 벤치마크는 사전 학습된 대규모 언어 모델 (LLM)을 평가하는 표준이지만, 로그 가능도 (log-likelihood) 점수 산출 방식에 대한 의존성으로 인해 신뢰도가 떨어집니다. 구체적으로, 표준 점수는 정답의 정확한 표현 방식 (surface form)에 매우 민감하며, 이는 모델이 특정 문구에 익숙한 정도와 실제 능력을 혼동하게 만듭니다. 우리는 동일한 지식으로 학습된 1B-8B 모델의 통제된 테스트베드를 사용하여 이러한 결함을 입증합니다. 동일한 지식을 보유하고 있음에도 불구하고, 표준 지표는 2점 이상의 성능 격차가 있는 것으로 잘못 보고합니다. 이를 해결하기 위해, 우리는 각 선택지당 여러 개의 패러프레이즈 (paraphrases, 의역)를 사용하여 모델에 질문하는 평가 프레임워크인 ParaEval을 제안합니다. 각 모델을 가장 유리한 표현 방식에 기반하여 점수를 매김으로써, ParaEval은 잘못된 성능 격차를 1점 미만으로 성공적으로 줄입니다. 우리는 이러한 평가 아티팩트 (artifacts)와 ParaEval을 통한 개선 사항이 최첨단 (frontier) 70B 및 120B 오픈 소스 모델에서도 지속됨을 확인했습니다. 궁극적으로 ParaEval은 표면적 표현에 대한 익숙함이 아닌, 진정한 기저 능력을 평가할 수 있는 견고하고 효율적인 방법을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0