계획은 어디에 있는가? 경량 메커니즘 개입을 통해 언어 모델의 잠재적 계획 위치 찾기
요약
본 논문은 언어 모델(LLM) 내에서 '계획' 메커니즘이 구조적으로 어떻게 형성되고 작동하는지 연구합니다. 특히, 미래 토큰의 내부 표현이 순전파 과정 중 어떤 방식으로 생성에 인과적으로 기여하는지에 초점을 맞춥니다. 운율 쌍 완성 같은 제약 조건 테스트를 사용하여 Qwen3, Gemma-3, Llama-3 등 여러 모델에서 경량 탐색 방법(선형 탐색 및 활성화 패치)을 적용한 결과, 미래의 운율 정보가 라인 경계에서 선형적으로 디코딩 가능함을 발견했습니다.
핵심 포인트
- 언어 모델 내 계획 메커니즘의 구조적 위치와 작동 방식을 연구함.
- 미래 토큰 표현이 순전파 과정 중 생성에 인과적으로 기여하는지 분석함.
- 운율 쌍 완성(rhyming-couplet completion)을 사용하여 강력한 전방 예측 제약 조건 테스트를 수행함.
- 선형 탐색 및 활성화 패치와 같은 경량 방법을 통해 미래의 운율 정보가 라인 경계에서 선형적으로 디코딩됨을 입증함.
우리는 언어 모델에서의 계획(planning) 부위 형성을 연구합니다. 즉, 구조적으로 제약된 미래 토큰들의 내부 표현이 순전파 과정(forward pass) 동안 어떻게 형성되는지, 그리고 이것이 생성에 인과적으로 기여하는지를 살펴봅니다. 운율 쌍 완성(rhyming-couplet completion)을 깨끗한 전방 예측 제약 조건 테스트로 사용하여, Qwen3, Gemma-3, Llama-3 모델에 걸쳐 10개 이상의 스케일에서 두 가지 경량 방법(선형 탐색 (linear probing) 및 활성화 패치 (activation patching))을 적용합니다. 탐색 결과, 미래의 운율 정보는 라인 경계에서 선형적으로 디코딩 가능하며, 신호가 s
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기