벤치마크의 환상: 가지치기(Pruned)된 LLM은 객관식은 통과하지만 답변에는 실패한다
요약
LLM 압축(Pruning) 시 발생하는 벤치마크의 오류를 분석합니다. 가지치기된 모델은 객관식 평가에서는 높은 성능을 유지하지만, 실제 개방형 생성 능력은 크게 저하되는 '벤치마크의 환상' 현상이 나타납니다.
핵심 포인트
- 가지치기된 모델은 객관식 점수는 높지만 개방형 생성에는 실패할 수 있음
- 정답이 사라지는 것이 아니라 생성 순위가 밀려나는 현상 발생
- Wanda 방식 등 고희소성 가지치기에서 인식 전용 오류가 두드러짐
- 압축 모델 평가 시 생성 능력에 대한 검증이 필수적임
대규모 언어 모델(Large Language Models, LLMs)을 압축하면 메모리 사용량과 추론 비용을 줄일 수 있지만, 표준 벤치마크(Benchmarks)가 놓치는 오류를 발생시킬 수도 있습니다. 가지치기(Pruned)된 모델은 객관식 평가(Multiple-choice evaluations)에서는 여전히 좋은 성능을 보일 수 있지만, 동일한 질문에 대해 개방형 생성(Open generation) 방식으로는 답변하는 데 실패할 수 있습니다. 우리는 가지치기가 무엇을 변화시키는지 질문합니다: 정답을 지워버리는 것인가, 아니면 정답이 최상위 출력(Top output)으로 생성되는 것을 더 어렵게 만드는 것인가? 우리는 다국어 질의응답(Multilingual question answering)을 통해 가지치기 전후의 동일한 질문들을 추적하며 이 문제를 연구합니다. 우리는 '벤치마크의 환상(Benchmark illusion)'을 발견했습니다. 높은 희소성(High-sparsity)의 가지치기, 특히 Wanda 방식의 경우, 모델은 객관식 채점(Multiple-choice scoring) 하에서는 여전히 정답을 선택하면서도 탐욕적 개방형 생성(Greedy open generation)에서는 자주 실패합니다. 이러한 인식 전용 오류(Recognition-only errors)에서 정답은 대개 사라진 것이 아니라 순위가 밀려난 것입니다. 정답은 빔 서치(Beam search), 샘플링(Sampling), 또는 하나의 인컨텍스트 예시(One in-context example)를 통해 다시 나타나는 경우가 많습니다. 전반적으로, 객관식 벤치마크는 압축된 LLM의 사용성을 과장하여 평가의 사각지대(Evaluation blind spot)를 만들 수 있습니다. 압축된 모델은 단순히 무엇을 인식할 수 있는지뿐만 아니라, 무엇을 생성할 수 있는지에 대해서도 테스트되어야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기