arXiv논문2026. 05. 11. 23:52

Prefix Consistency를 통한 신뢰할 수 있는 Chain-of-Thought

요약

본 기술 기사는 LLM의 추론 정확도를 높이는 방법 중 하나인 'self-consistency'를 개선한 'Prefix Consistency' 방법을 제안합니다. 이 방법은 여러 개의 Chain-of-Thought(CoT) 추적을 샘플링하고, 각 후보 답변이 재생성 과정을 통해 얼마나 일관되게 나타나는지(prefix consistency)를 신뢰도 지표로 활용하여 가중치를 부여합니다. 실험 결과, Prefix Consistency는 기존의 다수 투표(Majority Voting) 방식보다 높은 정확도를 보였으며, 훨씬 적은 토큰으로 유사한 성능을 달성할 수 있음을 입증했습니다.

핵심 포인트

LLM 추론에서 self-consistency 기법을 개선하여 'Prefix Consistency'를 제안함.
Prefix Consistency는 CoT 추적의 재생성 과정을 통해 후보 답변의 신뢰도를 측정하는 새로운 방법임.
이 방법은 토큰 로그 확률이나 자체 평가 프롬프트 같은 추가적인 접근 없이 작동합니다.
실험 결과, Prefix Consistency가 기존 Majority Voting(MV)보다 높은 정확도 예측 지표를 보였으며, 적은 토큰으로도 우수한 성능을 달성했습니다.

대규모 언어 모델(LLM)은 여러 개의 Chain-of-Thought (CoT) 추적을 샘플링하고 이를 다수 투표(Majority Voting, MV)로 집계하는 방식(self-consistency라고 불리는 테스트 시간 기법)을 통해 추론 작업에서 정확도를 높이는 경우가 많습니다. CoT를 중간에 잘라내고 나머지 부분을 재생성할 때, 올바른 답이 있는 추적은 틀린 답이 있는 추적보다 원래의 답을 더 자주 재현하는 것을 관찰했습니다. 우리는 이 차이를 신뢰도 신호인 prefix consistency로 활용하여, 각 후보 답변을 재생성을 통해 얼마나 자주 나타나는지에 따라 가중치를 부여합니다. 이는 토큰 로그 확률이나 자체 평가 프롬프트에 대한 접근이 필요하지 않습니다. 5개의 추론 모델과 4개의 수학 및 과학 벤치마크를 거친 결과, prefix consistency는 대부분의 설정에서 최고의 정확도 예측 지표였으며, 이를 통해 투표 가중치를 재조정했을 때 기존 MV 평탄화 정확도를 최대 21배 적은 토큰(중앙값 4.6배)으로 달성할 수 있었습니다. 저희 코드는 https://github.com/naoto-iwase/prefix-consistency에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Prefix Consistency를 통한 신뢰할 수 있는 Chain-of-Thought

요약

핵심 포인트

댓글