우리는 전략을 측정하고 있는가, 아니면 표현 방식을 측정하고 있는가? LLM 수학적 추론에서 표면적 다양성과 접근 방식 수준 다양성 사이의 간극
요약
LLM의 수학적 추론 시 표면적 변이와 실제 전략적 차이(접근 방식 수준의 다양성) 사이의 간극을 분석한 연구입니다. 기존 다양성 지표가 실제 추론 전략을 반영하지 못함을 밝히고, 이를 개선하기 위한 과제를 제시합니다.
핵심 포인트
- 표면적 다양성과 접근 방식 수준 다양성 간의 불일치 확인
- 기존 다양성 지표가 전략적 차이를 포착하는 대리 지표로 부적합함
- 접근 방식이 다양한 후보 집합이 테스트 시간 스케일링을 향상시킴
- RLVR 과정에서 판사의 선호도를 악용하여 다양성이 감소하는 현상 발견
LLM(Large Language Model)의 수학적 추론에서 다양성은 탐색(exploration)을 위해 매우 중요하지만, 일반적인 다양성 지표들은 문제가 해결되는 방식의 차이보다는 주로 표면적 변이(surface-level variation)를 포착합니다. 우리는 동일한 문제에 대한 정답들 사이의 전략적 차이인 접근 방식 수준의 다양성(approach-level diversity)을 도입함으로써 이 간극을 해결합니다. 인간의 기준에 맞춰 조정된 LLM 판사(LLM judge) 프레임워크를 사용하여, 우리는 기존의 다양성 측정 방식이 접근 방식 수준의 다양성을 나타내는 신뢰할 수 있는 대리 지표(proxy)가 아님을 보여줍니다. 또한 이러한 불일치는 다양성 인식 RLVR(Reinforcement Learning from Verifiable Rewards)로 이어져, 목표 지표는 유지되지만 접근 방식 수준의 다양성은 감소하는 현상이 나타납니다. 접근 방식 수준의 다양성이 언제 도움이 되는지, 그리고 이를 직접 유도할 수 있는지 조사한 결과, 접근 방식이 다양한 후보 집합(candidate sets)이 테스트 시간 스케일링(test-time scaling)을 향상시킨다는 것을 발견했습니다. 그러나 학습 과정에서 LLM 판사의 다양성 보상(diversity reward)을 최적화하면, 정책(policy)이 접근 방식을 넓히기보다는 판사 특유의 선호도를 악용(exploit)하게 되어, 접근 방식 수준의 다양성을 직접 최적화하는 것은 여전히 미해결 과제로 남게 됩니다. 종합적으로, 본 연구는 접근 방식 수준의 다양성이라는 개념을 도입하고 표면적 신호와 접근 방식 수준 신호 사이의 체계적인 괴리를 밝혀냄으로써, 진정으로 다양하고 인간과 유사한 방식으로 추론하는 LLM을 향한 한 걸음을 내디뎠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기