arXiv논문2026. 06. 10. 11:16

우리는 지식을 평가하는가, 아니면 표현 방식을 평가하는가? ParaEval을 통한 MCQA 민감도 완화

요약

MCQA 벤치마크가 정답의 표현 방식에 민감하게 반응하여 모델의 실제 능력을 왜곡하는 문제를 지적합니다. 이를 해결하기 위해 패러프레이즈를 활용하여 성능 격차를 줄이는 새로운 평가 프레임워크 ParaEval을 제안합니다.

핵심 포인트

표준 MCQA 지표는 정답의 표면적 표현 방식에 과도하게 민감함
동일 지식 모델 간에도 표현 방식 차이로 인해 성능 격차가 발생함
ParaEval은 패러프레이즈를 통해 잘못된 성능 격차를 1점 미만으로 완화함
70B 및 120B 오픈 소스 모델에서도 ParaEval의 효과가 입증됨

객관식 (MCQA) 벤치마크는 사전 학습된 대규모 언어 모델 (LLM)을 평가하는 표준이지만, 로그 가능도 (log-likelihood) 점수 산출 방식에 대한 의존성으로 인해 신뢰도가 떨어집니다. 구체적으로, 표준 점수는 정답의 정확한 표현 방식 (surface form)에 매우 민감하며, 이는 모델이 특정 문구에 익숙한 정도와 실제 능력을 혼동하게 만듭니다. 우리는 동일한 지식으로 학습된 1B-8B 모델의 통제된 테스트베드를 사용하여 이러한 결함을 입증합니다. 동일한 지식을 보유하고 있음에도 불구하고, 표준 지표는 2점 이상의 성능 격차가 있는 것으로 잘못 보고합니다. 이를 해결하기 위해, 우리는 각 선택지당 여러 개의 패러프레이즈 (paraphrases, 의역)를 사용하여 모델에 질문하는 평가 프레임워크인 ParaEval을 제안합니다. 각 모델을 가장 유리한 표현 방식에 기반하여 점수를 매김으로써, ParaEval은 잘못된 성능 격차를 1점 미만으로 성공적으로 줄입니다. 우리는 이러한 평가 아티팩트 (artifacts)와 ParaEval을 통한 개선 사항이 최첨단 (frontier) 70B 및 120B 오픈 소스 모델에서도 지속됨을 확인했습니다. 궁극적으로 ParaEval은 표면적 표현에 대한 익숙함이 아닌, 진정한 기저 능력을 평가할 수 있는 견고하고 효율적인 방법을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

우리는 지식을 평가하는가, 아니면 표현 방식을 평가하는가? ParaEval을 통한 MCQA 민감도 완화

요약

핵심 포인트

댓글