arXiv논문2026. 06. 02. 11:48

추론 모델에서의 극단적인 저비트 추론: 실패 모드 및 타겟팅된 복구

요약

저비트 양자화가 대규모 추론 모델(LRM)의 생성 과정에서 발생하는 불안정성과 실패 모드를 분석한 연구입니다. 2비트 추론 시 발생하는 반복 루프 및 경로 오류를 해결하기 위해 FP16 플래닝과 루프 구조 복구 기법을 제안합니다.

핵심 포인트

2비트 양자화는 토큰 수 증가로 인해 엔드 투 엔드 속도를 저하시킬 수 있음
반복 루프, 예산 소진 등 특유의 생성 병리 현상 발견
FP16 플래닝과 루프 구조 기법으로 Qwen3 모델 정확도 대폭 향상
경량 제어 기법을 통해 저비트 추론의 실용성 확보 가능

대규모 추론 모델 (Large Reasoning Models, LRMs)은 긴 추론 경로 (reasoning traces)에 의존하기 때문에 추론 비용이 많이 듭니다. 저비트 양자화 (low-bit quantization)는 토큰당 디코딩 비용을 줄여주지만, 본 연구에서는 공격적인 2비트 (2-bit) 추론이 생성 과정의 불안정성으로 인해 전체 토큰 수를 증가시킴으로써 결과적으로 엔드 투 엔드 (end-to-end) 속도 향상을 달성하지 못할 수 있음을 보여줍니다. 2비트 양자화는 단순히 정답 정확도를 낮추는 것에 그치지 않고, 반복적인 루프 (repetitive loops), 예산 소진 (budget exhaustion), 결정 지연 (delayed commitment), 그리고 닫히지 않은 추론 세그먼트 (unclosed reasoning segments)를 포함하여 훨씬 더 긴 경로를 생성하는 경우가 많습니다. 우리는 수학 및 상식 벤치마크 전반에 걸쳐 Qwen3 추론 모델의 전체 추론 경로를 분석하였으며, 정확도 저하가 이러한 프로세스 수준의 실패와 밀접하게 연관되어 있음을 보여줍니다. 이를 해결하기 위해 우리는 두 가지 경량 제어 기법을 도입합니다: 2비트 모델에 짧은 고정밀 개요를 제공하는 FP16 플래닝 (FP16 planning), 그리고 반복적인 경로를 감지하여 이전 답변을 확정하거나 FP16으로 폴백 (fallback)하는 루프 구조 (loop rescue)입니다. MATH-500 데이터셋에서 루프 구조는 Qwen3-8B의 정확도를 17.2%에서 74.2%로 향상시켰으며, 플래닝과 루프 구조를 함께 사용했을 때는 Qwen3-32B의 정확도를 65.0%에서 87.2%로 향상시켰습니다. 종합적으로, 우리의 결과는 극단적인 저비트 추론의 실패를 제어 가능한 생성 병리 (generation pathologies)로 취급할 때 실용적이 될 수 있음을 보여줍니다. 즉, 경량화된 감지와 선택적인 FP16 지원을 통해 2비트 추론은 실제 엔드 투 엔드 속도를 유지하면서도 정확도를 회복할 수 있습니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/brain-lab-research/quantized-reasoning.

AI 자동 생성 콘텐츠

원문 바로가기

추론 모델에서의 극단적인 저비트 추론: 실패 모드 및 타겟팅된 복구

요약

핵심 포인트

댓글