arXiv논문2026. 04. 27. 20:34

대형 언어 모델은 조기에 결정하고 이후에 설명한다

요약

본 논문은 대형 언어 모델(LLM)이 긴 추론 과정에서 최종 답변을 언제 결정하는지 분석하고, 이 과정의 비효율성을 지적합니다. 연구 결과에 따르면, LLM의 예측된 답변은 쿼리의 약 32% 시점에서 이미 안정화되며, 이후 생성되는 많은 토큰들은 사후 설명에 불과하여 비용만 증가시킵니다. 이에 따라, 답변이 안정화되자마자 생성을 중단하는 '조기 중단(early stopping)' 전략을 제안하고, 이를 통해 상당한 추론 자원 절감 효과를 입증했습니다.

핵심 포인트

LLM의 최종 답변은 긴 중간 연쇄 사고 과정에서 비교적 초기에 결정되는 경향이 있다.
추가적인 토큰 생성(사후 설명)은 정확도 개선에 기여하지 않으면서 추론 비용과 지연 시간을 증가시킨다.
답변 안정화 시점을 포착하여 생성을 중단하는 '조기 중단' 전략을 적용할 수 있다.
탐지 기반의 조기 중단 휴리스틱은 쿼리당 약 500개의 추론 토큰 사용을 줄이면서도 정확도 손실은 2% 미만으로 유지한다.

대형 언어 모델 (Large Language Models) 은 긴 중간 연쇄 사고 (chain-of-thought) 추론을 생성함으로써 강력한 성능을 자주 달성합니다. 그러나 모델의 최종 답변이 실제로 생성 과정에서 언제 결정되는지는 여전히 명확하지 않습니다. 만약 답변이 이미 중간 단계에서 고정되었다면, 이후의 추론 토큰들은 사후 결정 설명 (post-decision explanation) 에 해당할 수 있으며, 이는 정확도를 개선하지 않으면서 추론 비용과 지연 시간을 증가시킵니다. 우리는 부분적인 추론 접두사 (prefix) 에서 모델의 중간 예측을 이끌어내기 위해 강제된 답변 완성 (forced answer completion) 을 사용하여 추론 단계에 따른 예측 답변의 진화를 연구합니다. Qwen3-4B 에 초점을 맞추고 고려된 모든 데이터셋에 걸쳐 결과를 평균화한 결과, 예측된 답변은 쿼리의 32% 에서만 변경되는 것을 발견했습니다. 또한 최종 답변 전환이 일어난 후 모델은 쿼리당 평균 760 개의 추가 추론 토큰을 생성하며, 이는 총 추론 예산의 상당 부분을 차지합니다. 이러한 발견에 동기를 부여받아 우리는 답변이 안정화되자마자 생성을 중단하는 조기 중단 (early stopping) 전략을 조사합니다. 우리는 탐지 기반 중단 (probe-based stopping) 을 포함한 간단한 휴리스틱이 쿼리당 500 개의 추론 토큰 사용을 줄일 수 있으며, 정확도는 오직 2% 만 감소한다는 것을 보여줍니다. 종합적으로 우리의 결과는 연쇄 사고 생성의 상당 부분이 불필요하며 성능에 미치는 영향은 최소로 줄일 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대형 언어 모델은 조기에 결정하고 이후에 설명한다

요약

핵심 포인트

댓글