본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 12:32

언어 확산 모델은 보이지 않는 데이터를 검색할 수 있는 연상 기억체입니다

요약

본 논문은 Uniform-based Discrete Diffusion Models (UDDMs)이 본질적으로 연상 기억체(Associative Memories, AMs)로 작동함을 보여줍니다. 연구진은 전통적인 에너지 함수 없이도 조건부 가능도 최대화를 통해 안정적인 인력 영역(basins of attraction)을 형성할 수 있음을 제시합니다. 또한, 학습 데이터셋 크기에 따른 모델의 '암기(memorization)'에서 '일반화(generalization)'로의 전환을 예측된 토큰 시퀀스의 조건부 엔트로피를 측정하는 실용적인 방법으로 탐지할 수 있음을 입증했습니다.

핵심 포인트

  • UDDMs는 명시적 에너지 함수 없이도 조건부 가능도 최대화를 통해 연상 기억체(AMs)의 기능을 수행합니다.
  • 모델은 학습 데이터셋 크기가 증가함에 따라 '암기' 영역이 축소되고 '일반화' 영역이 확장되는 전환을 겪습니다.
  • 조건부 엔트로피는 모델이 암기에 머무는지 일반화하고 있는지를 판단하는 실용적인 지표(probe)를 제공합니다.
  • 조건부 엔트로피가 소멸하면 암기 상태로, 유한하게 유지되면 일반화 영역에 있음을 의미합니다.

언어 확산 모델이 언제 학습 데이터를 암기하며, 그 진정한 생성 영역을 정량적으로 어떻게 평가할 수 있을까요? 우리는 Uniform-based Discrete Diffusion Models (UDDMs) 이 근본적으로 $ extit{emergent creative capabilities}$ 를 가진 Associative Memories (AMs) 로 동작함을 보여줌으로써 이러한 질문에 답합니다. AM 의 핵심 아이디어는 이를 $ extit{memories}$ 로 복원하기 위해 그 주변에 명확한 basins of attraction 을 확립하는 것입니다. 역사적으로 Hopfield 네트워크와 같은 모델은 이러한 안정적인 attractor 를 보장하기 위해 명시적인 에너지 함수를 사용합니다. 우리는 에너지가 엄격하게 필요하지 않다는 관찰을 활용하여, basins of attraction 이 조건부 가능도 (conditional likelihood) 최대화를 통해 형성될 수도 있음을 제시함으로써 이 관점을 확장합니다. $ extit{training}$ 과 $ extit{test}$ 예시의 토큰 복원도를 평가함으로써, 우리는 UDDM 에서 학습 데이터셋의 크기에 의해 지배되는 급격한 memorization-to-generalization 전환을 확인했습니다: 학습 데이터셋이 증가함에 따라 학습 예시 주변의 basins 는 축소되고 보이지 않는 test 예시 주변의 basins 는 확장되어, 결국 동일한 수준으로 수렴합니다.至关重要的是, 우리는 예측된 토큰 시퀀스의 조건부 엔트로피 (conditional entropy) 만으로도 이 전환을 감지할 수 있습니다: 암기 상태는 조건부 엔트로피가 소멸하는 것으로 특징지어지며, 일반화 영역에서는 대부분의 토큰에 대한 조건부 엔트로피가 유한하게 유지됩니다. 따라서 조건부 엔트로피는 배포된 모델에서 memorization-to-generalization 전환을 탐지하기 위한 실용적인 프로브 (probe) 를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0