본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 29. 11:28

보조 변수를 통한 평균장 트랜스포머(Mean-Field Transformer)의 모드 붕괴(Mode-Collapse) 방지

요약

평균장 트랜스포머(Mean-Field Transformer) 모델에서 발생하는 모드 붕괴 현상을 분석하고, 위치 인코딩과 같은 보조 변수가 이를 어떻게 방지하는지 이론적으로 규명합니다. 보조 변수가 토큰 분포의 퇴화를 막는 역학적 역할을 수행하며 표현의 보편성을 확보함을 입증합니다.

핵심 포인트

  • 평균장 트랜스포머의 모드 붕괴 현상 이론적 조사
  • 위치 인코딩 등 보조 변수의 모드 붕괴 방지 효과 입증
  • 보조 변수가 디락 측도로의 집중을 피하게 하는 역학 분석
  • 위치 인코딩과 프롬프트 삽입의 표현 보편성 증명

본 연구에서는 평균장 기반 트랜스포머(mean-field-based transformer) 모델을 사용하여 위치 인코딩(positional encoding)과 같은 보조 변수(auxiliary variables)가 셀프 어텐션(self-attention) 메커니즘의 모드 붕괴(mode collapse)를 어떻게 방지하는지 이론적으로 조사합니다. 토큰 간의 상호작용을 포괄적으로 분석할 수 있는 능력 덕분에, 셀프 어텐션 메커니즘의 특성을 분석하기 위해 평균장 트랜스포머를 사용하는 방식은 최근 몇 년 동안 상당한 주목을 받아왔습니다. 그러나 이 단순한 모델을 분석해 보면, 긴 추론(i.e., 많은 레이어) 과정에서 토큰 분포가 하나의 점으로 퇴화하는 모드 붕괴가 발생하며, 이는 실제 현상과 차이가 있음을 나타냅니다. 본 연구는 이 평균장 트랜스포머 모델을 조사하여 위치 인코딩과 같은 보조 변수의 도입이 이론적 모드 붕괴에 대항하는 역학(counterforce)으로 작용함을 입증합니다. 구체적으로, 우리는 이론적 체계 내에서 에너지를 최대화하는 분포(energy-maximizing distribution)가 하나의 점으로 퇴화하지 않음을 보여줍니다. 대신, 해당 분포는 보조 변수 분포의 푸시포워드(pushforward)로 특징지어지며, 이를 통해 디락 측도(Dirac measure)로의 집중을 피하게 됩니다. 우리의 주요 사례는 위치 인코딩과 병렬 보조 변수 메커니즘으로 취급되는 고정 프롬프트 삽입(fixed prompt insertion)입니다. 나아가, 우리는 위치 인코딩과 프롬프트 삽입이 극한(limit)에서 표현의 보편성(universality of representation)을 갖는다는 것을 입증하며, 이는 추론의 극한 분포가 광범위한 분포 클래스를 정확하게 표현할 수 있음을 의미합니다. 또한 우리는 위치 인코딩과 준안정성(metastability)의 몇 가지 핵심 속성을 분석하고, 수학적 실험을 통해 우리의 이론적 결과를 검증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0