본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 12:52

장기 문맥 모델링의 불가능 삼각형

요약

본 논문은 장기 시퀀스 모델링에 내재된 근본적인 트레이드오프를 '불가능 삼각형'으로 형식화하고 증명합니다. 이 삼각형은 효율성(단계당 계산 비용), 압축성(상태 크기), 그리고 회상 능력(장기 의존성 기억) 세 가지 속성을 동시에 만족하는 모델이 존재할 수 없음을 보여줍니다. 연구진은 트랜스포머, SSM, RNN 등 다양한 아키텍처를 통합한 온라인 시퀀스 프로세서 추상화 내에서 이 한계를 수학적으로 증명하며, 실제 실험을 통해 이론적 한계가 경험적으로도 유효함을 검증합니다.

핵심 포인트

  • 장기 시퀀스 모델링은 효율성, 압축성, 회상 능력 세 가지 속성 간의 근본적인 트레이드오프에 직면한다.
  • 이 트레이드오프는 '불가능 삼각형'으로 형식화되었으며, 어떤 아키텍처도 이 영역을 벗어날 수 없다.
  • 데이터 처리 불평등 및 Fano의 부등식을 사용하여 회상 가능한 키-값 쌍의 상한선을 수학적으로 증명했다.
  • 다양한 최신 모델(Transformer, SSM 등)들을 분석하여, 각 모델이 세 속성 중 최대 두 가지만 달성함을 보여준다.
  • 실제 합성 연상 회상 실험을 통해 이론적 정보론적 한계가 경험적으로도 유효함을 검증하였다.

우리는 장기 시퀀스 모델 (long-sequence models) 을 지배하는 근본적인 트레이드오프를 식별하고 증명합니다: 어떤 모델도 (i) 시퀀스 길이에 독립적인 단계당 계산 (Efficiency), (ii) 시퀀스 길이에 독립적인 상태 크기 (Compactness), 그리고 (iii) 시퀀스 길이에 비례하는 역사적 사실의 수를 회상할 수 있는 능력 (Recall) 을 동시에 달성할 수 없습니다.

우리는 트랜스포머 (Transformers), 상태 공간 모델 (state space models), 선형 재귀 네트워크 (linear recurrent networks), 그리고 그 하이브리드들을 통합하는 온라인 시퀀스 프로세서 (Online Sequence Processor) 추상화 내에서 이 트레이드오프를 형식화합니다. 데이터 처리 불평등 (Data Processing Inequality) 과 Fano's Inequality 를 사용하여, 임의 길이의 시퀀스에서 모델 차원 (d) 과 단어 크기 (V) 에 따라 O(poly(d)/log V) 개의 키-값 쌍 (key-value pairs) 만 회상할 수 있음을 증명합니다.

우리는 2026 년 3 월 이전에 발표된 52 개의 아키텍처를 삼각형에 분류하여, 각 아키텍처는 세 가지 속성 중 최대 두 가지만 달성함을 보여줍니다. 하이브리드 아키텍처는 내부에서 연속적인 궤적을 그립니다.

우리는 5 개 대표적 아키텍처를 사용한 합성 연상 회상 (associative recall) 작업 실험을 통해 이론적 한계를 검증합니다: 경험적 회상 용량은 정보론적 한계보다 엄격히 낮으며, 어떤 아키텍처도 삼각형에서 벗어날 수 없습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0