하이브리드 모델은 어떤 토큰을 더 잘 예측하는가?

기술 보고서 (Tech report): https://arxiv.org/abs/2606.20936

모델은 어떤 종류의 토큰을 잘 예측하고, 어떤 토큰을 잘 예측하지 못할까요? 이 질문은 표준 Transformer (트랜스포머)에 도전하기 시작한 언어 모델 아키텍처이자, 우리가 Olmo Hybrid를 통해 연구해 온 Hybrid (하이브리드) 모델의 경우 특히 흥미롭습니다.

Hybrid 모델은 표준 벤치마크에서 Transformer와 대등하거나 이를 능가할 수 있지만, 헤드라인 수치만으로는 Hybrid 모델이 Transformer에 비해 구체적으로 어떤 이점을 갖는지에 대해 많은 것을 알려주지 않습니다.

이러한 토큰 수준 (token-level)의 동작을 밝히기 위해, 우리는 최근 당사의 가장 강력한 7B Transformer인 Olmo 3와 Hybrid 모델인 Olmo Hybrid를 직접 비교하는 실험을 수행했습니다. 구체적으로, 우리는 LLM (대규모 언어 모델)의 입력으로 나타나는 정보 단위인 다양한 유형의 토큰에 걸쳐 모델 예측의 차이를 세밀한 방식으로 비교합니다.

Olmo 3와 Olmo Hybrid는 아키텍처를 제외하고는 데이터, 토크나이저 (tokenizer), 학습 레시피 (training recipe) 측면에서 최대한 유사하게 구축되었기 때문에, 예측의 차이는 대부분 아키텍처 자체를 반영합니다. 이러한 차이를 토큰 수준에서 살펴보면 Transformer 대비 Hybrid 모델의 구체적인 강점에 대한 통찰을 얻을 수 있습니다.

우리의 결과에 따르면 Hybrid의 이점은 많은 토큰에 걸쳐 실제로 존재하지만, 모든 토큰에 해당하는 것은 아닙니다. Olmo Hybrid는 명사, 동사, 형용사와 같이 의미를 담고 있는 토큰과, 대명사가 어떤 사람을 지칭하는지와 같이 문맥의 흐름을 따라가야만 예측할 수 있는 토큰에서 가장 강력한 성능을 보입니다. 하지만 입력값에 이미 존재하는 내용을 단순히 반복하는 토큰 — 즉, 이전의 단어나 구절을 그대로 재현하는 경우 — 의 경우, 정답이 바로 그 자리에 있어 찾아보기만 하면 되는 상황에서는 Hybrid의 이점이 거의 사라집니다. 그 부분이 바로 Transformer의 강점이 발휘되는 지점입니다.

언어 모델은 반복되는 레이어 (layer)의 스택으로 구축되며, 각 레이어는 주변 토큰을 사용하여 모든 토큰에 대한 표현 (representation)을 정교화합니다.

Transformer는 모든 레이어에서 어텐션 (attention)을 사용합니다. 모델은 현재 예측과 각 토큰이 얼마나 관련이 있는지 가중치를 두면서, 이전의 모든 토큰을 한꺼번에 직접 참조할 수 있습니다. 덕분에 어텐션은 특정 토큰이 입력의 아주 앞부분에 등장했더라도 해당 토큰을 정확하게 회상하는 데 탁월합니다. 문제는 모든 토큰이 이전의 모든 토큰과 비교되기 때문에, 입력이 길어질수록 어텐션의 비용이 급격히 상승한다는 점입니다. 또한, 어텐션은 정보를 회상하고 집계하는 데는 강력하지만, 시간이 지남에 따라 순차적으로 진화하는 정보를 표현하는 데는 어려움을 겪습니다.

하이브리드 모델은 몇 개의 어텐션 레이어는 유지하되, 나머지는 순환 레이어 (recurrent layers)로 교체합니다. 어텐션 레이어와 달리, 순환 레이어는 토큰을 왼쪽에서 오른쪽으로 읽으며 고정된 크기의 메모리 (memory)를 유지합니다. 진행 과정에서 각 새로운 토큰을 메모리에 통합하므로, 입력의 길이에 상관없이 각 토큰을 처리하는 비용이 일정하게 유지됩니다. 이 메모리는 압축된 손실적 (lossy) 형태이므로, 순환 레이어는 어텐션처럼 이전의 특정 토큰을 정확하게 다시 찾아낼 수는 없습니다. 하지만 모델이 토큰을 읽어 나감에 따라 변화하는 모든 것에 대한 지속적인 기록을 유지하는 데 적합하며, 이는 어텐션에 상호 보완적인 강점을 제공합니다.

어텐션과 순환 레이어의 강점과 약점 영역을 분리하기 위해, 우리는 Olmo 3와 Olmo Hybrid 모델에 기사, Wikipedia 항목, 도서, 과학 논문과 같은 텍스트 구절뿐만 아니라 Python, HTML, LaTeX와 같은 구조화된 텍스트를 입력했습니다. 우리는 주어진 샘플 내의 이전 토큰들로부터 각 토큰을 얼마나 잘 예측하는지에 따라 각 모델의 점수를 매겼습니다.

두 모델 모두 동일한 이전 토큰들을 보았으며, 가능한 모든 다음 토큰에 대해 확률을 할당했습니다. 우리는 실제로 뒤따라온 토큰에 대해 각 모델이 부여한 확률을 기록했습니다. 그런 다음 두 모델 사이의 손실 차이, 즉 로스 갭 (loss gap)을 계산하여 토큰별로 두 모델 간의 차이를 요약합니다. 양(+)의 갭은 하이브리드 모델이 실제 다음 토큰을 더 잘 예측했음을 의미합니다. 음(-)의 갭은 Transformer가 더 잘 예측했음을 의미합니다.

손실 갭(loss gap)이 어디에 집중되는지 찾기 위해 몇 가지 분석을 수행했습니다. 먼저, 각 토큰을 카테고리로 분류하고 해당 카테고리 내의 손실 갭을 평균 냈습니다. 단순 평균은 카테고리의 희귀성이나 텍스트 샘플 내 토큰의 반복 빈도와 같은 다른 요인에 의해 왜곡될 수 있으므로, 다른 요인들을 일정하게 유지하면서 해당 카테고리 자체의 효과를 추정하는 회귀 분석(regression)을 통해 각 패턴을 재확인했습니다.

분석 결과, Olmo Hybrid는 대부분의 토큰 유형에서 Olmo 3보다 낮은 손실(loss)을 보였으나, 유형마다 그 정도는 달랐습니다.

산문(prose)의 경우, 가장 명확한 차이는 의미를 담고 있는 명사, 동사, 형용사와 같은 내용어(content words)와 "the", "of", "is"와 같은 기능어(function words) 사이에서 나타났습니다. 하이브리드 모델은 트랜스포머(transformer)보다 내용어를 더 잘 예측했으며, 손실 갭은 약 [값 미기재] 정도였던 반면, 기능어에서의 갭은 [값 미기재]에 더 가까웠습니다.

특히 부사나 형용사와 같은 내용어 카테고리에서 하이브리드 모델의 이점이 특히 두드러졌으나, "there"와 같은 존재를 나타내는 단어(existentials)와 같은 일부 기능어 카테고리에서도 하이브리드 모델이 큰 우위를 보였습니다. 요약하자면, 하이브리드 모델의 강점은 문장이 무엇에 관한 것인지를 말해주는 단어에서 가장 컸으며, 어떤 모델이든 구문(syntax)으로부터 거의 추측할 수 있는 문법적 단어에서 가장 작았습니다.

반면, 트랜스포머 대비 하이브리드 모델의 이점이 사라지는 몇 가지 특정 문맥도 발견되었습니다. 첫 번째는 닫는 중괄호(closing braces)이며, 여는 중괄호는 그렇지 않았습니다. 이는 언어, 코드, 마크업(markup) 전반에 걸친 대괄호 패턴에서 일관되게 나타나는 현상입니다. 왜 그럴까요? 어텐션(attention)만으로도 괄호 매칭(bracket matching)을 표현하기에 충분하다는 사실이 알려져 있으며, 이는 어텐션만으로도 닫는 중괄호 예측에 충분함을 시사합니다.

하이브리드 모델의 이점이 거의 사라지는 두 번째 경우는 다음 토큰이 단순히 본문에 이미 있는 내용을 반복할 때입니다. 우리는 반복되는 n-gram을 찾아냄으로써 이러한 사례를 식별합니다. 즉, 시퀀스를 완성하는 토큰이 동일한 본문 앞부분에 글자 그대로(verbatim) 나타나는 텍스트의 연속을 찾는 것입니다. 반복되는 구간이 길어질수록 하이브리드 모델의 우위는 줄어들며, 결국 0에 가까워집니다.

마지막으로, 이러한 발견에 영감을 받아 우리는 사전 학습 (pretraining) 실험에서 서로 다른 아키텍처를 더 잘 비교하기 위한 평가 방법으로서 특정 유형의 토큰에 대한 필터링된 손실 (filtered losses) 사용을 탐색합니다. 우리는 이전 Olmo Hybrid 연구에서 사용했던 1B 파라미터 모델 세 가지를 사용합니다: 트랜스포머 (transformer), 하이브리드 (hybrid), 그리고 어텐션 (attention)이 전혀 없는 순수 순환 모델 (pure recurrent model)입니다.

반복되지 않는 의미 전달 토큰 (meaning-bearing tokens)에 대해서는 하이브리드 모델과 순수 순환 모델이 트랜스포머를 앞지르며, 하이브리드 모델이 가장 우수한 성능을 보입니다. 반복되는 토큰에 대해서는, 복사를 위해 되돌아갈 어텐션이 없는 순수 순환 모델이 하이브리드 모델과 트랜스포머 모두에 뒤처집니다.

따라서, 이러한 필터링된 토큰 손실은 학습 초기 단계에서 복사 능력 및 내용어 (content words)에서의 차이점을 포함하여, 다른 방식으로는 보이지 않았을 아키텍처 간의 미세한 차이점들을 드러냅니다.

필터링된 토큰 손실은 1B 사전 학습 과정 중 아키텍처의 차이를 표면화합니다. 트랜스포머, 하이브리드, 그리고 순수 순환 신경망 (RNN)의 WSD-annealed 체크포인트에서의 토큰 손실 (token-loss) 곡선.

이 연구로부터 두 가지 교훈을 얻을 수 있습니다.

첫째, 모델의 모든 토큰에 대한 평균 오차인 단일 전체 손실 (single overall loss)은 트랜스포머와 하이브리드 아키텍처를 비교하기에는 너무 투박합니다. 특정 모델 능력을 테스트하는 토큰들에 대해서만 손실을 점수화하면 핵심적인 차이점을 드러낼 수 있습니다.

둘째, 특히 하이브리드 모델의 경우, 개방 부류 토큰 (open-class tokens)에서 특별한 이점이 있다는 증거를 발견했으며, 이는 아마도 RNN 레이어의 상태 추적 (state-tracking) 능력과 관련이 있을 것입니다.

다음 단계로, 우리는 이러한 발견들을 현재 진행 중인 하이브리드 모델링 (hybrid modeling) 연구에 반영하고 있습니다. 우리는 모델의 각 구성 요소가 무엇을 잘 수행하는지를 토큰 단위로 이해함으로써 최적의 하이브리드 아키텍처 (hybrid architectures)를 도출할 수 있다고 믿습니다. 우리는 이와 같은 연구들이 AI 커뮤니티 전체에 걸쳐 그러한 이해를 넓히는 데 도움이 되기를 바랍니다.

우리의 전체 보고서를 읽어보시고, Olmo 3를 탐색하며, Olmo Hybrid를 시도해 보시고, 이와 관련된 오픈 아티팩트 (open artifacts)들을 자세히 살펴보시기를 권장합니다.

하이브리드 모델은 어떤 토큰을 더 잘 예측하는가?

요약

핵심 포인트

댓글