LLM이 숫자를 학습하는 방식: 수리적 표현의 공통 진화
요약
본 논문은 다양한 언어 모델(Language Model)들이 자연어 텍스트를 통해 숫자를 주기적인 특징(periodic features)으로 학습한다는 것을 보여줍니다. 특히, Transformer, RNN, LSTM 등 여러 아키텍처가 푸리에 영역(Fourier domain)에서 특정 주기를 가진 스파이크 형태의 특징을 습득하는 공통점을 발견했습니다. 더 나아가, 모델이 단순한 주기성을 넘어 실제로 $ ext{mod-}T$로 기하학적으로 분리 가능한(geometrically separable) 특징을 학습하기 위해서는 데이터,
핵심 포인트
- 다양한 LLM 아키텍처는 자연어 처리 과정에서 숫자를 공통적인 주기적 패턴으로 인코딩한다.
- 단순히 푸리에 영역에 스파이크가 나타나는 것만으로는 $ ext{mod-}T$ 기하학적 분리가 보장되지 않는다.
- 모델이 수리적으로 유용한 특징을 학습하는 방식은 데이터(co-occurrence) 또는 다중 토큰 연산 문제 해결 등 여러 경로를 거친다.
- 이는 다양한 모델들이 각기 다른 훈련 신호로부터 유사한 핵심 기능을 습득하는 '수렴적 진화 (Convergent Evolution)' 현상을 보여준다.
최근 언어 모델(LLM) 연구에서 흥미로운 발견이 있었습니다. LLM은 자연어 텍스트를 학습하면서 숫자를 주기적인 특징(periodic features)으로 표현하는 경향을 보입니다. Transformer, RNN, LSTM 등 다양한 아키텍처의 모델들이 푸리에 영역(Fourier domain) 분석 결과, 특정 주기를 가진 스파이크 형태의 특징을 공통적으로 습득한다는 것입니다.
하지만 단순히 주기적 패턴이 나타나는 것과, 그 패턴을 이용해 $ ext{mod-}T$로 기하학적으로 분리 가능한(geometrically separable) 특징을 학습하는 것은 별개의 문제입니다. 본 연구는 이러한 차이를 설명하기 위해 푸리에 영역의 희소성(sparsity)이 필요조건이지만 충분조건은 아님을 증명했습니다.
실험 결과에 따르면, 모델이 수리적 추론에 유용한 기하학적으로 분리 가능한 특징을 갖추게 하려면 데이터 구성, 아키텍처, 최적화기(optimizer), 심지어 토크나이저(tokenizer)까지 여러 요소가 복합적으로 작용합니다. 특히 두 가지 주요 학습 경로를 발견했습니다. 첫째는 텍스트-숫자 동시 출현(co-occurrence)이나 숫자 간 상호작용 같은 일반 언어 데이터에서 보완적인 신호를 통해 특징을 습득하는 방식입니다. 둘째는 단일 토큰이 아닌 다중 토큰의 덧셈 문제와 같은 구조화된 연산 문제를 해결하며 학습하는 경우입니다.
결론적으로, 이 연구는 모델들이 각기 다른 훈련 신호(training signals)를 통해 유사한 핵심 기능적 특징을 습득하는 '수렴적 진화 (Convergent Evolution)' 현상을 명확히 보여주고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기