arXiv논문2026. 05. 14. 14:27

예측 가능한 스케일링 법칙(Scaling Laws)과 추론(Reasoning)의 증명 가능한 이점을 가진 계층적 언어 모델

요약

본 논문은 트리 구조를 가진 합성 언어 제품군을 소개하고, 이 언어를 통해 자기회귀 생성 및 추론의 역할을 분석했습니다. 핵심 방법론은 기존 트랜스포머 모델의 컨텍스트 길이 $k$ 대신 정확한 $k$-gram ansatz를 사용하는 것입니다. 이를 통해 학습된 모델이 생성하는 시퀀스의 분포 통계에 대한 명시적인 점근적 예측을 도출합니다. 분석 결과, 실제 언어와 비교했을 때 하위 선형 컨텍스트는 편차를 보이며, 특히 유한한 메모리를 가진 추론 모델은 $ ext{length } n$의 시퀀스를 샘플링하는 데 필요한 컨텍스트 길이에 대해 $\Omega(n)$의 하한이 존재함을 보여줍니다. 반면, 본 연구진은 단 $\Theta(\log n)$의 작업 메모리만으로도 실제 언어로부터 정확하게 샘플링할 수 있음을 증명하며 지수적인 개선을 제시합니다.

핵심 포인트

트리 구조를 가진 합성 언어를 사용하여 자기회귀 생성 및 추론 과정을 분석함.
기존 트랜스포머의 컨텍스트 길이 $k$ 대신 정확한 $k$-gram ansatz를 적용하여 모델 성능을 검증함.
유효한 시퀀스를 샘플링하는 데 필요한 컨텍스트 길이에 $\Omega(n)$의 하한이 존재함을 증명함.
작업 메모리가 $\Theta(\log n)$인 추론 모델만으로도 실제 언어로부터 정확하게 샘플링할 수 있음을 증명하여 지수적 개선을 제시함.

우리는 트리(tree) 상의 브로드캐스트 과정(broadcast process)에 의해 생성되는 계층적 구조를 가진 합성 언어(synthetic languages) 제품군을 소개합니다. 이 언어들은 자기회귀 생성(autoregressive generation)에서 컨텍스트 길이(context length)와 추론(reasoning)의 역할을 정밀하게 분석할 수 있습니다. 우리의 분석적 접근 방식의 핵심은 컨텍스트 길이가 $k$인 트랜스포머(transformer) 대신 extit{정확한 $k$-gram ansatz}를 사용하는 것이며, 우리는 이 대체를 경험적으로 검증합니다. 이 ansatz를 사용하여, 우리는 두 가지 설정에서 구현된 학습된 모델이 생성하는 시퀀스의 분포 통계(distributional statistics)에 대한 명시적인 점근적 예측(asymptotic predictions)을 도출합니다. extit{Ising 브로드캐스트 과정}(소프트 제약 언어)의 경우, 생성된 합의 분산(variance)이 컨텍스트 깊이(context depth)에 따라 로그 선형(log-linearly)으로 스케일링되며, 첨도(kurtosis)는 가우시안(Gaussian)의 첨도로 수렴함을 증명합니다. 이 두 가지 모두 임의의 하위 선형(sublinear) 컨텍스트에 대해서는 실제 언어와 편차를 보입니다. 프리징 레짐(freezing regime)에서의 extit{coloring 브로드캐스트 과정}(하드 제약 언어)의 경우, 유계 컨텍스트 자기회귀(bounded-context autoregression)는 높은 확률로 기저 트리의 extit{어떠한} 유효한 컬러링(coloring)과도 일치하지 않는 시퀀스를 생성합니다. 이러한 결과들을 종합하면, 길이 $n$인 시퀀스를 충실하게 샘플링하는 데 필요한 컨텍스트 길이에 대해 $\Omega(n)$의 하한(lower bound)이 존재함을 의미합니다. 이와 대조적으로, 우리는 단 $\Theta(\log n)$의 작업 메모리(working memory)만을 가진 자기회귀 extit{추론(reasoning)} 모델이 실제 언어로부터 정확하게 샘플링할 수 있음을 증명하며, 이는 지수적인 개선입니다. 우리는 합성 언어로 학습된 트랜스포머를 통해 하한 예측과 추론 기반 상한(upper bound)을 모두 경험적으로 확인했습니다. 학습된 모델들은 광범위한 컨텍스트 크기에 걸쳐 우리의 점근적 예측을 정량적으로 추적합니다.

AI 자동 생성 콘텐츠

원문 바로가기

예측 가능한 스케일링 법칙(Scaling Laws)과 추론(Reasoning)의 증명 가능한 이점을 가진 계층적 언어 모델

요약

핵심 포인트

댓글