arXiv논문2026. 04. 30. 12:32

언어 확산 모델은 보이지 않는 데이터를 검색할 수 있는 연상 기억체입니다

요약

본 논문은 Uniform-based Discrete Diffusion Models (UDDMs)이 본질적으로 연상 기억체(Associative Memories, AMs)로 작동함을 보여줍니다. 연구진은 전통적인 에너지 함수 없이도 조건부 가능도 최대화를 통해 안정적인 인력 영역(basins of attraction)을 형성할 수 있음을 제시합니다. 또한, 학습 데이터셋 크기에 따른 모델의 '암기(memorization)'에서 '일반화(generalization)'로의 전환을 예측된 토큰 시퀀스의 조건부 엔트로피를 측정하는 실용적인 방법으로 탐지할 수 있음을 입증했습니다.

핵심 포인트

UDDMs는 명시적 에너지 함수 없이도 조건부 가능도 최대화를 통해 연상 기억체(AMs)의 기능을 수행합니다.
모델은 학습 데이터셋 크기가 증가함에 따라 '암기' 영역이 축소되고 '일반화' 영역이 확장되는 전환을 겪습니다.
조건부 엔트로피는 모델이 암기에 머무는지 일반화하고 있는지를 판단하는 실용적인 지표(probe)를 제공합니다.
조건부 엔트로피가 소멸하면 암기 상태로, 유한하게 유지되면 일반화 영역에 있음을 의미합니다.

언어 확산 모델이 언제 학습 데이터를 암기하며, 그 진정한 생성 영역을 정량적으로 어떻게 평가할 수 있을까요? 우리는 Uniform-based Discrete Diffusion Models (UDDMs) 이 근본적으로 $ extit{emergent creative capabilities}$ 를 가진 Associative Memories (AMs) 로 동작함을 보여줌으로써 이러한 질문에 답합니다. AM 의 핵심 아이디어는 이를 $ extit{memories}$ 로 복원하기 위해 그 주변에 명확한 basins of attraction 을 확립하는 것입니다. 역사적으로 Hopfield 네트워크와 같은 모델은 이러한 안정적인 attractor 를 보장하기 위해 명시적인 에너지 함수를 사용합니다. 우리는 에너지가 엄격하게 필요하지 않다는 관찰을 활용하여, basins of attraction 이 조건부 가능도 (conditional likelihood) 최대화를 통해 형성될 수도 있음을 제시함으로써 이 관점을 확장합니다. $ extit{training}$ 과 $ extit{test}$ 예시의 토큰 복원도를 평가함으로써, 우리는 UDDM 에서 학습 데이터셋의 크기에 의해 지배되는 급격한 memorization-to-generalization 전환을 확인했습니다: 학습 데이터셋이 증가함에 따라 학습 예시 주변의 basins 는 축소되고 보이지 않는 test 예시 주변의 basins 는 확장되어, 결국 동일한 수준으로 수렴합니다.至关重要的是, 우리는 예측된 토큰 시퀀스의 조건부 엔트로피 (conditional entropy) 만으로도 이 전환을 감지할 수 있습니다: 암기 상태는 조건부 엔트로피가 소멸하는 것으로 특징지어지며, 일반화 영역에서는 대부분의 토큰에 대한 조건부 엔트로피가 유한하게 유지됩니다. 따라서 조건부 엔트로피는 배포된 모델에서 memorization-to-generalization 전환을 탐지하기 위한 실용적인 프로브 (probe) 를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 확산 모델은 보이지 않는 데이터를 검색할 수 있는 연상 기억체입니다

요약

핵심 포인트

댓글