arXiv논문2026. 06. 09. 11:50

내장된 사고(Built-in Thinking)가 도움이 될 때와 해가 될 때: 지시 이행(Instruction Following)에서의 제약

요약

대규모 추론 모델(LRM)의 사고(Thinking) 과정이 지시 이행(Instruction Following) 성능에 미치는 영향을 분석한 연구입니다. 사고 과정은 계획(Planning) 능력은 향상시키지만, 정밀도(Precision) 측면에서는 성능을 저하시키는 양면성을 보입니다.

핵심 포인트

사고 과정은 계획 능력은 높이지만 정밀도는 저하시킴
프롬프트의 10-20%가 사고 모드에 따라 합격/불합격 전환
사고 흔적과 최종 답변 준수 사이의 실행 격차 존재
모델 크기가 커질수록 계획과 정밀도 간의 성능 격차 확대

대규모 추론 모델(Large reasoning models, LRMs)은 종종 수학 및 코딩 성능을 향상시키지만, 지시 이행(Instruction Following, IF)에 미치는 영향은 불분명합니다. 본 연구에서는 동일한 가중치를 사용하는 사고 ON/OFF(Thinking ON/OFF) 제어 방식을 통해 Qwen3 모델(1.7B-32B)로 IFEval을 연구하며, 네 가지 Hunyuan 모델을 통해 모델군 간의 방향성 교차 지원(directional cross-family support)을 제공합니다. 총합 합격률(pass-rate) 변화는 작지만(-0.55 ~ -3.52 pp), 프롬프트의 10-20%가 모드 간에 합격(pass)과 불합격(fail) 사이를 전환하며, 이는 사고(thinking)가 성능을 일률적으로 저하시키기보다는 오류의 패턴을 변화시킨다는 것(일부 프롬프트는 개선되고 다른 프롬프트는 악화됨)을 시사합니다. 사후 Qwen3 유도 그룹화(post-hoc Qwen3-derived grouping)에 따르면, 제약 조건 유형은 사고 시 클래스 수준에서 개선되는 계획(Planning; 전역 카운팅, 구조, 조정)과 지속적으로 악화되는 정밀도(Precision; 정확한 국소적 형태)로 구분됩니다. Hunyuan의 총합 방향이 반대임에도 불구하고, 클래스 수준의 계획/정밀도 부호 패턴은 네 가지 Hunyuan 모델 모두에서 방향성을 유지합니다. 사고는 또한 최종 답변의 길이(final-answer length)를 변화시킵니다. 길이를 맞춘 분석(matched-length analyses)은 정밀도(Precision) 저하를 상당히 줄여주지만, 잔여 페널티(residual penalty)는 여전히 남아 있습니다. 교차 인코더 관련성 지표(cross-encoder relevance metric)로 사고 흔적(thinking traces)을 분석한 결과 세 가지 패턴이 나타났습니다: 중립(Neutral)은 양의 관련성-준수 링크(r 약 0.15)를 보여줍니다; 계획(Planning)은 측정 가능한 흔적 참여에도 불구하고 예측 상관관계가 거의 0에 가까우며(r 약 0.02), 이는 CE로 측정된 흔적 관련성과 최종 답변 준수 사이의 실행 격차(execution gap)와 일치합니다; 정밀도(Precision)는 작은 음의 상관관계(r 약 -0.05)를 보이며, 불합격 사례가 합격 사례보다 더 높은 평균 관련성을 가집니다. 네 가지 모델 크기(1.7B-14B)에 걸친 활성화 패칭(Activation patching) 결과, 정밀도 전환(Precision flip) 사례가 계획 전환(Planning flip) 사례보다 더 자주 복구됨을 보여줍니다(평균 레이어 복구율 32-58% 대 14-40%), 가장 큰 격차는 14B 모델에서 나타났습니다(약 30 pp).

AI 자동 생성 콘텐츠

원문 바로가기

내장된 사고(Built-in Thinking)가 도움이 될 때와 해가 될 때: 지시 이행(Instruction Following)에서의 제약

요약

핵심 포인트

댓글