arXiv논문2026. 06. 17. 11:16

벤치마크의 환상: 가지치기(Pruned)된 LLM은 객관식은 통과하지만 답변에는 실패한다

요약

LLM 압축(Pruning) 시 발생하는 벤치마크의 오류를 분석합니다. 가지치기된 모델은 객관식 평가에서는 높은 성능을 유지하지만, 실제 개방형 생성 능력은 크게 저하되는 '벤치마크의 환상' 현상이 나타납니다.

핵심 포인트

가지치기된 모델은 객관식 점수는 높지만 개방형 생성에는 실패할 수 있음
정답이 사라지는 것이 아니라 생성 순위가 밀려나는 현상 발생
Wanda 방식 등 고희소성 가지치기에서 인식 전용 오류가 두드러짐
압축 모델 평가 시 생성 능력에 대한 검증이 필수적임

대규모 언어 모델(Large Language Models, LLMs)을 압축하면 메모리 사용량과 추론 비용을 줄일 수 있지만, 표준 벤치마크(Benchmarks)가 놓치는 오류를 발생시킬 수도 있습니다. 가지치기(Pruned)된 모델은 객관식 평가(Multiple-choice evaluations)에서는 여전히 좋은 성능을 보일 수 있지만, 동일한 질문에 대해 개방형 생성(Open generation) 방식으로는 답변하는 데 실패할 수 있습니다. 우리는 가지치기가 무엇을 변화시키는지 질문합니다: 정답을 지워버리는 것인가, 아니면 정답이 최상위 출력(Top output)으로 생성되는 것을 더 어렵게 만드는 것인가? 우리는 다국어 질의응답(Multilingual question answering)을 통해 가지치기 전후의 동일한 질문들을 추적하며 이 문제를 연구합니다. 우리는 '벤치마크의 환상(Benchmark illusion)'을 발견했습니다. 높은 희소성(High-sparsity)의 가지치기, 특히 Wanda 방식의 경우, 모델은 객관식 채점(Multiple-choice scoring) 하에서는 여전히 정답을 선택하면서도 탐욕적 개방형 생성(Greedy open generation)에서는 자주 실패합니다. 이러한 인식 전용 오류(Recognition-only errors)에서 정답은 대개 사라진 것이 아니라 순위가 밀려난 것입니다. 정답은 빔 서치(Beam search), 샘플링(Sampling), 또는 하나의 인컨텍스트 예시(One in-context example)를 통해 다시 나타나는 경우가 많습니다. 전반적으로, 객관식 벤치마크는 압축된 LLM의 사용성을 과장하여 평가의 사각지대(Evaluation blind spot)를 만들 수 있습니다. 압축된 모델은 단순히 무엇을 인식할 수 있는지뿐만 아니라, 무엇을 생성할 수 있는지에 대해서도 테스트되어야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

벤치마크의 환상: 가지치기(Pruned)된 LLM은 객관식은 통과하지만 답변에는 실패한다

요약

핵심 포인트

댓글