잠재적 시계 (Subliminal Clocks): 확산 언어 모델 (Diffusion Language Models)에서의 잠재적 시간 모델링
요약
확산 언어 모델(DLM)이 내부 잔차 스트림에 확산 타임스텝 정보를 잠재적으로 인코딩하고 있음을 밝힌 연구입니다. 프로빙을 통해 이 신호를 추출하고, 이를 활용해 모델의 노이즈 제거 과정을 제어할 수 있음을 입증했습니다.
핵심 포인트
- DLM의 잔차 스트림 내에 타임스텝 관련 잠재 표현이 존재함을 확인
- 프로빙을 통해 내부 활성화 값으로부터 노이즈 제거 과정을 디코딩 가능
- 잠재적 부분 공간을 통한 모델 스티어링으로 신뢰도 및 엔트로피 조절
- 식별된 표현의 기하학적 구조 분석을 통한 해석 가능성 제시
확산 언어 모델 (Diffusion Language Models, DLMs)은 최근 자기회귀 모델 (autoregressive models)의 유망한 대안으로 부상했습니다. 표준적인 확산 기반 접근 방식과 달리, DLM은 타임스텝 (timestep)에 명시적으로 조건화되지 않으며, 이는 자연스러운 질문을 던집니다: 이 모델들이 내부적으로 노이즈 제거 과정 (denoising progress)을 표현하고 있는가, 그리고 이러한 정보가 다운스트림 (downstream)에서 어떻게 사용되는가? 본 연구에서 우리는 DLM이 실제로 잔차 스트림 (residual streams) 내에 확산 타임스텝과 관련된 잠재 표현 (latent representation)을 인코딩하고 있음을 보여줍니다. 우리는 여러 레이어에 걸친 프로브 (probes)를 사용하여 이 신호를 안정적으로 추출할 수 있음을 발견했으며, 이는 노이즈 제거 과정이 내부 활성화 (internal activations)로부터 디코딩 가능하다는 것을 나타냅니다. 나아가 우리는 추론된 타임스텝과 관련된 저차원 부분 공간 (low-dimensional subspace)을 따라 모델을 스티어링 (steering)함으로써, 모델의 노이즈 제거 과정 개념을 체계적으로 조절할 수 있으며, 이것이 모델의 신뢰도 (confidence)와 엔트로피 (entropy)의 예측 가능한 변화로 이어진다는 것을 입증합니다. 마지막으로, 우리는 식별된 표현의 기하학적 구조 (geometry)를 분석하여, 이것이 활성화 공간 (activation space)에서 구조화되고 해석 가능한 특성을 보임을 보여주며, 이러한 신호가 모델에 의해 어떻게 처리되는지에 대한 통찰을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기