arXiv논문2026. 05. 25. 16:47

Next-Token Prediction은 언제 유용한가? Marginalization, Ergodicity, Mixture

요약

언어 모델의 Next-Token Prediction이 실제 언어 프로세스를 어떻게 근사하는지 이론적으로 분석합니다. 잠재적 상황이 포함된 조건부 프로세스와 텍스트 전용 주변 프로세스 간의 차이를 규명하며, RAG와 도구 사용의 역할을 조건부 충분성 관점에서 해석합니다.

핵심 포인트

조건부 언어 프로세스와 주변 텍스트 프로세스의 차이 구분
모델 학습의 유효성을 위한 정상성, 대표성, 에르고드성 가정 검토
텍스트와 누락된 상황 사이의 잔여 상호 정보량 최소화의 중요성
RAG와 도구 사용을 조건부 충분성 장치로 재해석

관찰된 시퀀스(sequences)로 학습된 언어 모델(Language models)은 종종 이전 토큰들이 주어졌을 때 다음 토큰의 조건부 분포(conditional distribution)를 학습하는 것으로 묘사됩니다. 이러한 설명은 조건부로만 정확합니다. 실제로 실현된 토큰 궤적(token trajectories)으로 학습된 모델은 완전한 조건부 법칙(conditional laws)을 관찰하는 것이 아니라, 샘플링된 연속(sampled continuations)을 전달받습니다. 더욱이, 실제 언어 생성은 이전 단어들뿐만 아니라 비텍스트적 상황(non-textual circumstances), 즉 사실, 사건, 의도, 목표, 신념, 사회적 맥락 및 작업 특정적 제약 조건(task-specific constraints)에 의해 조건화됩니다. 본 논문은 흔히 혼동되는 세 가지 대상, 즉 잠재적 상황(latent circumstances)에 의해 조건화된 완전한 조건부 언어 프로세스(full conditional language process), 이러한 상황들을 적분하여 제거함으로써 얻은 주변 텍스트 전용 프로세스(marginal text-only process), 그리고 유한한 관찰 말뭉치(observed corpora)로부터 학습된 모델 유도 분포(model-induced distribution)를 구분합니다. 본 논문은 모델 학습을 주변 텍스트 전용 법칙(marginal text-only law)을 추정하는 것으로 해석하려면 정상성(stationarity), 대표성(representativeness), 그리고 에르고드성(ergodicity)에 대한 강력한 가정이 필요하다고 주장합니다. 이러한 가정들은 통계적 추정(statistical estimation)에서는 표준적이지만, 이질적인 언어 말뭉치(heterogeneous language corpora)에 적용될 때는 문제가 될 수 있습니다. 설령 이러한 가정들이 성립하더라도, 주변 텍스트 전용 법칙은 관찰된 접두사(prefix)가 연속(continuation)과 관련된 잠재적 상황에 대한 근사적 충분 통계량(approximately sufficient statistic)일 때만 유용합니다. 정보 이론적(information-theoretic) 관점에서 유용성이란, 관찰된 텍스트가 주어졌을 때 다음 토큰과 누락된 상황 사이의 잔여 조건부 상호 정보량(residual conditional mutual information)이 작아야 함을 의미합니다. 이후 본 논문은 이 논의를 이질적인 학습 말뭉치(heterogeneous training corpora)로 확장합니다. 마지막으로, 본 논문은 검색 증강 생성(RAG, Retrieval Augmented Generation)과 도구 사용(tool use)을 조건부 충분성 장치(conditional sufficiency devices)로 해석합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Next-Token Prediction은 언제 유용한가? Marginalization, Ergodicity, Mixture

요약

핵심 포인트

댓글