잠재적 시계 (Subliminal Clocks): 확산 언어 모델 (Diffusion Language Models)에서의 잠재적 시간 모델링

확산 언어 모델 (Diffusion Language Models, DLMs)은 최근 자기회귀 모델 (autoregressive models)의 유망한 대안으로 부상했습니다. 표준적인 확산 기반 접근 방식과 달리, DLM은 타임스텝 (timestep)에 명시적으로 조건화되지 않으며, 이는 자연스러운 질문을 던집니다: 이 모델들이 내부적으로 노이즈 제거 과정 (denoising progress)을 표현하고 있는가, 그리고 이러한 정보가 다운스트림 (downstream)에서 어떻게 사용되는가? 본 연구에서 우리는 DLM이 실제로 잔차 스트림 (residual streams) 내에 확산 타임스텝과 관련된 잠재 표현 (latent representation)을 인코딩하고 있음을 보여줍니다. 우리는 여러 레이어에 걸친 프로브 (probes)를 사용하여 이 신호를 안정적으로 추출할 수 있음을 발견했으며, 이는 노이즈 제거 과정이 내부 활성화 (internal activations)로부터 디코딩 가능하다는 것을 나타냅니다. 나아가 우리는 추론된 타임스텝과 관련된 저차원 부분 공간 (low-dimensional subspace)을 따라 모델을 스티어링 (steering)함으로써, 모델의 노이즈 제거 과정 개념을 체계적으로 조절할 수 있으며, 이것이 모델의 신뢰도 (confidence)와 엔트로피 (entropy)의 예측 가능한 변화로 이어진다는 것을 입증합니다. 마지막으로, 우리는 식별된 표현의 기하학적 구조 (geometry)를 분석하여, 이것이 활성화 공간 (activation space)에서 구조화되고 해석 가능한 특성을 보임을 보여주며, 이러한 신호가 모델에 의해 어떻게 처리되는지에 대한 통찰을 제공합니다.

Insights

잠재적 시계 (Subliminal Clocks): 확산 언어 모델 (Diffusion Language Models)에서의 잠재적 시간 모델링

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때