Cliff Tokens: LLM 수학적 추론에서의 단일 토큰 실패 트리거 식별
요약
LLM의 수학적 추론 실패를 유발하는 특정 토큰인 '클리프 토큰(Cliff Token)'을 정의하고 식별하는 연구를 소개합니다. 클리프 토큰을 제거하거나 Cliff-DPO를 통해 최적화함으로써 모델의 추론 정확도를 크게 향상시킬 수 있음을 입증했습니다.
핵심 포인트
- 수학적 추론 실패를 유발하는 '클리프 토큰' 개념 도입
- 적응형 임계값을 활용한 토큰별 잠재력 급락 지점 식별
- 클리프 토큰 유형에 따른 분류 체계(Taxonomy) 제안
- Cliff-DPO를 통해 벤치마크 정확도를 최대 6.6% 향상
대규모 언어 모델 (LLMs)은 수학적 추론에서 높은 정확도에 도달하지만, 동일한 문제에 대한 개별 추적(traces)은 서로 갈라집니다. 어떤 모델은 정답에 도달하는 반면, 다른 모델은 실패합니다. 기존 연구들은 단계(step), 청크(chunk), 또는 문장(sentence) 수준에서의 실패를 분석하거나, 이미 실패가 발생한 토큰들을 분석해 왔습니다. 하지만 실패로의 전환을 유발하는 정확한 토큰을 식별하는 연구는 없었습니다. 우리는 '클리프 토큰 (cliff token)'을 소개합니다. 이는 일방향 이-비율 z-검정 (one-sided two-proportion z-test)을 기반으로, 국소적 토큰별 잠재력 (local token-wise potential)에 따라 조절되는 적응형 임계값(adaptive threshold) 하에서 토큰별 잠재력이 급격히 떨어지는 토큰을 의미합니다. 7개의 모델과 3개의 수학적 추론 벤치마크 (GSM1K, MATH500, AIME 2025)에 걸쳐 실험한 결과, 클리프 토큰은 실패 트리거 역할을 하는 것으로 나타났습니다. 첫 번째 클리프 토큰을 삭제하고 재샘플링(resampling)하면 pass@64를 1.0까지 회복할 수 있는 반면, 이를 유지할 경우 회복률은 0.71에서 1.00 사이로 제한됩니다. 우리는 더 나아가 탐욕적 선택 (greedy choice)과 토큰 엔트로피 (token entropy)에 의해 정의되는 결정론적 (deterministic), 불확실한 (uncertain), 샘플링 오프 (sampled-off) 클리프라는 클리프 분류 체계 (cliff taxonomy)를 도입합니다. 각 유형은 뚜렷한 확률적 특성을 가지며, 이 분류 체계는 모델 규모 전반에 걸쳐 일반화됩니다. 마지막으로, 우리는 클리프 위치에서의 단일 토큰 선호도 최적화 (single-token preference optimization, Cliff-DPO)를 통해 이 분류 체계를 검증합니다. GSM8K로 학습된 Cliff-DPO는 벤치마크 전반에서 정확도를 최대 +6.6까지 향상시킵니다. 불확실한(uncertain) 및 샘플링 오프(sampled-off) 클리프에서 최적화하는 것은 추론 능력을 향상시키지만, 결정론적(deterministic) 클리프에서는 그렇지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기