arXiv논문2026. 06. 30. 12:31

상세한 Chain-of-Thought (CoT)가 정말 도움이 될까? 내용이 중요한 것이지 길이가 중요한 것이 아니라는 분포

요약

Chain-of-Thought(CoT) 프롬프팅의 효과가 단순히 토큰 길이에 의한 연산량 증가 때문인지, 아니면 의미론적 내용 때문인지 분석한 연구입니다. 실험 결과, CoT의 성능 향상은 단순한 장황함이 아니라 추론 및 검증 과정에 담긴 질적인 내용에 달려 있음을 입증했습니다.

핵심 포인트

CoT의 효과는 토큰의 길이가 아닌 담긴 내용의 질에 좌우됨
단순히 길이를 늘리는 채우기 문구는 추론 성능을 높이지 못함
추가된 토큰이 검증 및 확인 내용을 포함할 때 정확도가 향상됨
순수 연산량 증가 이론과 의미론적 내용 이론을 모두 보완하는 결과

Chain-of-thought (CoT, 사고의 사슬) 프롬프팅은 LLM(대규모 언어 모델)의 추론 능력을 향상시키지만, 그 근원에 대해서는 논란이 있습니다. 중간 단계가 유용한 의미론적 내용(semantic content)을 담고 있기 때문에 도움이 되는 것일까요, 아니면 더 많은 토큰에 조건화(conditioning)됨으로써 모델이 정답을 결정하기 전에 추가적인 연산(computation)을 확보하기 때문일까요? 우리는 두 가지 증거를 제시합니다. 첫째, 분포 내(in-distribution) 증거입니다. 우리는 동일한 질문에 대해 각 모델을 반복적으로 샘플링하고, 동일한 추론 계획을 따르는 모델 자체의 자연스러운 생성물 중 짧은 것과 긴 것을 쌍으로 묶었습니다. 따라서 아무것도 새로 작성되지 않았으며 두 추적(trace) 모두 진정으로 분포 내(in-distribution)에 있습니다. 25개의 모델을 대상으로 조사한 결과, 추가된 토큰은 독립적으로 학습된 모든 추론기(reasoner)의 정확도에 본질적인 변화를 주지 않았으며, 잉여 토큰에 대한 맹검 분석(blind analysis) 결과 다른 곳에서 나타나는 이득은 장황함(verbosity) 그 자체가 아니라 검증 및 확인 내용(validation- and checking-content)을 따르는 것으로 나타났습니다. 둘째, 통제된 개입(controlled intervention)으로서, 우리는 동일한 의미론적 내용(동일한 사실, 연산 및 중간값, 유향 비순환 그래프(DAG) 동등성을 통해 검증됨)을 표현하는 두 추적이 하나가 더 장황할 때 다른 결과를 생성하는지 질문합니다. 이를 위해 숫자 마스킹(number-redacted) 완성 및 층화 부트스트랩 신뢰 구간(stratified bootstrap confidence intervals)을 사용하여 4개의 대상과 8개의 벤치마크에 걸쳐 이중 검증기(dual-validator) 설계를 사용했습니다. 장황한 추적은 정확도를 향상시키지만(32개의 벤치마크-대상 셀 중 25개가 적어도 하나의 검증기 하에서 양수임), 그 효과는 미미하며(통상 1-4포인트), 단순히 길이가 아니라 장황한 산문의 품질에 따라 달라집니다. 최대 수치 마스킹(maximum numerical redaction) 하에서 효과는 증폭됩니다(4개의 산술 벤치마크 전체에서 중앙값 3.24배). 또한 길이를 맞춘 비추론용 채우기 문구(non-reasoning filler)는 이러한 효과를 전혀 회복하지 못했습니다. 두 가지 증거 모두 하나의 결론으로 수렴합니다. 중요한 것은 추가된 토큰이 무엇을 하는가(그 토큰이 담고 있는 추론 및 검증 내용)이지, 토큰이 얼마나 많은가가 아닙니다. 이는 순수한 순방향 패스 연산(forward-pass-compute) 이론이나 순수한 의미론적 내용(semantic-content) 이론 중 어느 것도 완전히 설명할 수 없는 모습입니다.

AI 자동 생성 콘텐츠

원문 바로가기

상세한 Chain-of-Thought (CoT)가 정말 도움이 될까? 내용이 중요한 것이지 길이가 중요한 것이 아니라는 분포

요약

핵심 포인트

댓글