내장된 사고(Built-in Thinking)가 도움이 될 때와 해가 될 때: 지시 이행(Instruction Following)에서의 제약
요약
대규모 추론 모델(LRM)의 사고(Thinking) 과정이 지시 이행(Instruction Following) 성능에 미치는 영향을 분석한 연구입니다. 사고 과정은 계획(Planning) 능력은 향상시키지만, 정밀도(Precision) 측면에서는 성능을 저하시키는 양면성을 보입니다.
핵심 포인트
- 사고 과정은 계획 능력은 높이지만 정밀도는 저하시킴
- 프롬프트의 10-20%가 사고 모드에 따라 합격/불합격 전환
- 사고 흔적과 최종 답변 준수 사이의 실행 격차 존재
- 모델 크기가 커질수록 계획과 정밀도 간의 성능 격차 확대
대규모 추론 모델(Large reasoning models, LRMs)은 종종 수학 및 코딩 성능을 향상시키지만, 지시 이행(Instruction Following, IF)에 미치는 영향은 불분명합니다. 본 연구에서는 동일한 가중치를 사용하는 사고 ON/OFF(Thinking ON/OFF) 제어 방식을 통해 Qwen3 모델(1.7B-32B)로 IFEval을 연구하며, 네 가지 Hunyuan 모델을 통해 모델군 간의 방향성 교차 지원(directional cross-family support)을 제공합니다. 총합 합격률(pass-rate) 변화는 작지만(-0.55 ~ -3.52 pp), 프롬프트의 10-20%가 모드 간에 합격(pass)과 불합격(fail) 사이를 전환하며, 이는 사고(thinking)가 성능을 일률적으로 저하시키기보다는 오류의 패턴을 변화시킨다는 것(일부 프롬프트는 개선되고 다른 프롬프트는 악화됨)을 시사합니다. 사후 Qwen3 유도 그룹화(post-hoc Qwen3-derived grouping)에 따르면, 제약 조건 유형은 사고 시 클래스 수준에서 개선되는 계획(Planning; 전역 카운팅, 구조, 조정)과 지속적으로 악화되는 정밀도(Precision; 정확한 국소적 형태)로 구분됩니다. Hunyuan의 총합 방향이 반대임에도 불구하고, 클래스 수준의 계획/정밀도 부호 패턴은 네 가지 Hunyuan 모델 모두에서 방향성을 유지합니다. 사고는 또한 최종 답변의 길이(final-answer length)를 변화시킵니다. 길이를 맞춘 분석(matched-length analyses)은 정밀도(Precision) 저하를 상당히 줄여주지만, 잔여 페널티(residual penalty)는 여전히 남아 있습니다. 교차 인코더 관련성 지표(cross-encoder relevance metric)로 사고 흔적(thinking traces)을 분석한 결과 세 가지 패턴이 나타났습니다: 중립(Neutral)은 양의 관련성-준수 링크(r 약 0.15)를 보여줍니다; 계획(Planning)은 측정 가능한 흔적 참여에도 불구하고 예측 상관관계가 거의 0에 가까우며(r 약 0.02), 이는 CE로 측정된 흔적 관련성과 최종 답변 준수 사이의 실행 격차(execution gap)와 일치합니다; 정밀도(Precision)는 작은 음의 상관관계(r 약 -0.05)를 보이며, 불합격 사례가 합격 사례보다 더 높은 평균 관련성을 가집니다. 네 가지 모델 크기(1.7B-14B)에 걸친 활성화 패칭(Activation patching) 결과, 정밀도 전환(Precision flip) 사례가 계획 전환(Planning flip) 사례보다 더 자주 복구됨을 보여줍니다(평균 레이어 복구율 32-58% 대 14-40%), 가장 큰 격차는 14B 모델에서 나타났습니다(약 30 pp).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기