본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 10:52

LLM 기반 에이전트에서 CoT 학습의 이점은 어디에 있는가?

요약

LLM 에이전트에서 CoT(사고의 사슬) 학습이 실제 행동 품질 개선에 미치는 영향을 분석한 연구입니다. 연구 결과, CoT 학습은 추론 과정을 통한 행동 수정보다는 프롬프트 자체로부터 행동을 예측하는 능력을 향상시키는 데 기여함을 밝혀냈습니다.

핵심 포인트

  • CoT 학습은 추론을 통한 행동 수정보다 프롬프트 행동 품질 개선에 더 큰 영향을 미침
  • 학습이 진행될수록 모델은 CoT보다 프롬프트에 더 의존하는 경향을 보임
  • 행동 토큰 감독을 선택적으로 마스킹할 경우 도메인 외 일반화 성능이 향상됨

Chain-of-thought (CoT, 사고의 사슬) 추론은 언어 모델 에이전트에서 널리 사용되지만, 이전 연구들은 언어화된 CoT가 항상 충실(faithful)하지 않으며 대신 사후 추론(post-hoc reasoning)을 반영할 수 있음을 보여주었습니다. 이는 모델이 추론하기 전에 이미 정답을 알고 있음을 의미합니다. 따라서 우리는 CoT 학습이 실제로 무엇을 개선하는지 질문합니다: 모델이 생성된 추론을 통해 자신의 행동(action)을 변경하는 능력이 향상되는 것인가, 아니면 프롬프트(prompt)로부터 행동을 직접 예측하는 능력이 향상되는 것인가? 우리는 extit{프롬프트 행동 (prompt actions)} (CoT 없이 행동을 예측)과 CoT 행동 (CoT와 함께 행동을 예측)을 비교함으로써 이 질문을 연구합니다. 체크포인트(checkpoints) 전반에 걸쳐 프롬프트 행동의 품질은 상당히 향상됩니다. 환경과 상호작용하는 동안, 프롬프트 행동 대비 CoT 행동의 상대적 이점은 유사하게 유지되며, 이는 CoT 학습이 CoT 추론의 이점을 확대하는 것이 아니라 프롬프트 행동의 품질을 개선하는 데 도움을 준다는 것을 보여줍니다. 우리는 더 나아가 후기 체크포인트일수록 CoT에 대응하여 행동을 수정할 가능성이 낮아진다는 것을 발견했으며, 이는 프롬프트에 대한 의존도가 더 높아짐을 시사합니다. 이러한 패턴에 착안하여, 우리는 학습 예시의 일부에 대해 행동 토큰(action-token) 감독을 선택적으로 마스킹(masking)합니다. 이러한 개입은 도메인 외 일반화(out-of-domain generalization)를 향상시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0