arXiv논문2026. 05. 14. 05:57

Joint KL에서의 자기회귀 학습 (Autoregressive Learning in Joint KL): 정밀한 Oracle Bounds 및

요약

본 논문은 모델 오지정 하에서 결합 Kullback-Leibler (KL) 발산을 이용한 자기회귀 모델링 및 다음 토큰 예측 시 긴 시퀀스 학습 문제를 다룹니다. 연구 목표는 시퀀스 지평 $H$가 근사 오차와 추정 오차에 미치는 영향을 규명하는 것입니다. 분석 결과, 결합 KL 목적 함수는 계산 효율적인 방법들과 달리 지평에 무관한(horizon-free) 근사 계수를 허용함을 보였습니다. 또한, 정책 학습의 정보 이론적 하한은 $ ext{O}(H)$ 차수임을 증명했으며, 이는 기존 알고리즘의 상한과 일치합니다. 이러한 분석을 통해 로그 손실 훈련 목적 함수와 시퀀스 수준 평가 지표 간의 관계를 명확히 하고, 정책 학습 후회 경계에 대한 이론적 기반을 제시했습니다.

핵심 포인트

결합 KL 발산은 모델 오지정 하에서 자기회귀 모델링 및 다음 토큰 예측 문제를 다루는 핵심 측정 기준입니다.
결합 KL 목적 함수는 시퀀스 지평 $H$와 무관한 근사 계수를 허용하여, 기존의 계산 효율적인 방법들과 차별화됩니다.
정책 학습에 대한 정보 이론적 하한은 $ ext{O}(H)$ 차수임을 증명했으며, 이는 최신 알고리즘의 상한과 일치합니다.
본 연구는 로그 손실 훈련 목적 함수와 시퀀스 수준 평가 지표를 정렬하여 자기회귀 학습 분야의 이론적 이해도를 높였습니다.

우리는 모델 오지정 (model misspecification) 하에서 결합 Kullback--Leibler (KL) 발산 (divergence)으로 측정되는 자기회귀 모델링 (autoregressive modeling) 및 다음 토큰 예측 (next-token prediction)에서의 긴 시퀀스 학습이라는 근본적이고 시기적절한 문제를 연구합니다. 우리의 목표는 이 결합 분포 (joint-distribution), 시퀀스 수준 (sequence-level) 체제에서 시퀀스 지평 (sequence horizon) $H$가 근사 오차 (approximation error)와 추정 오차 (estimation error) 모두에 어떻게 영향을 미치는지 규명하는 것입니다. 일치하는 상한 (upper bounds) 및 하한 (lower bounds)을 설정함으로써, 우리는 우리가 알기로 기존 연구와 비교하여 개선된 속도와 최적성 정당화를 갖춘, 자연스러운 결합 KL 목적 함수 하에서의 긴 지평 오차 거동에 대한 최초의 완전한 규명을 제공합니다. 근사 측면에서, 우리는 계산 효율적인 방법들에 대해 $\Omega(H)$ 의존성을 보이는 Hellinger 기반 분석과 극명하게 대조적으로, 결합 KL이 지평에 무관한 (horizon-free) 근사 계수를 허용함을 보여줍니다; 이는 발산 (divergence)의 선택이 근사 증폭의 원인임을 분리해 냅니다. 추정 측면에서는, 분해 가능한 정책 클래스 (decomposable policy classes)와 완전히 공유된 정책 (fully shared policies) 모두에 적용되는 $\Omega(H)$ 차수의 근본적인 정보 이론적 하한 (information-theoretic lower bound)을 증명하며, 이는 계산 효율적인 알고리즘에 의해 달성된 $\widetilde{O}(H)$ 상한과 일치합니다. 우리의 분석은 정밀한 결합 KL 오라클 이론 (sharp joint-KL oracle theory)을 통해 로그 손실 (log-loss) 훈련 목적 함수, 시퀀스 수준 평가 지표, 그리고 근사 지표를 정렬함으로써 최근의 자기회귀 학습 결과들의 지형을 명확히 합니다. 나아가 우리는 이러한 결합 KL 보장이 이전의 모방 학습 (imitation learning) 문헌과 일치하는 속도로 정책 학습 후회 경계 (policy learning regret bounds)를 함의함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Joint KL에서의 자기회귀 학습 (Autoregressive Learning in Joint KL): 정밀한 Oracle Bounds 및

요약

핵심 포인트

댓글