arXiv논문2026. 06. 23. 12:33

추론 모델은 자신의 사고 사슬 (Chain of Thought) 변화를 감지할 수 있는가?

요약

추론 모델이 자신의 사고 사슬(CoT)에 가해진 인위적인 개입이나 편집을 감지할 수 있는지에 대한 연구를 다룹니다. 실험 결과, 모델들은 자신의 CoT 변화를 식별하는 데 매우 낮은 정확도를 보이며 타 모델의 CoT 변화를 감지하는 것과 유사한 수준의 능력을 나타냈습니다.

핵심 포인트

모델은 CoT 편집에 대한 감지 정확도가 매우 낮음
CoT가 어떻게 수정되었는지 식별하는 데 어려움을 겪음
자신의 CoT와 타 모델의 CoT 변화 감지 능력이 비슷함

모델의 사고 사슬 (Chain of Thought, CoT)을 편집하고자 하는 데에는 여러 가지 이유가 있습니다. 예를 들어, 더 강력한 모델의 추론 과정을 미리 채워 넣거나(prefill), 안전하지 않은 출력을 생성할 수 있는 단계를 제거하는 것 등이 있습니다. 이러한 개입(intervention)의 성공 여부는 모델이 이를 알아차리지 못하는 능력에 따라 달라질 가능성이 큽니다. 모델이 조작을 의심할 경우 자신의 행동을 변경할 수 있기 때문입니다. 본 연구에서는 최근의 추론 모델들이 다양한 조건 하에서 자신의 CoT에 가해진 이러한 개입을 감지할 수 있는지 연구합니다. 연구 조건에는 추론 도중 및 추론 후, 그리고 자신의 CoT로 채워진 경우와 다른 모델의 CoT로 채워진 경우를 모두 포함합니다. 광범위하게 살펴보면, 우리는 다음과 같은 사실을 발견했습니다: (i) 모델들은 매우 미미한 수준의 감지 정확도만을 보입니다; (ii) 모델들은 자신의 CoT가 어떻게 수정되었는지 식별하는 데 어려움을 겪습니다; (iii) 모델들은 자신의 CoT 변화를 감지하는 능력이 다른 모델의 CoT 변화를 감지하는 능력과 비슷합니다.

AI 자동 생성 콘텐츠

원문 바로가기

추론 모델은 자신의 사고 사슬 (Chain of Thought) 변화를 감지할 수 있는가?

요약

핵심 포인트

댓글