본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 10:43

LLM 단어 생성 공정의 내부 구조

요약

Transformer 모델이 서브워드를 단어 수준의 의미로 통합하는 디토크나이제이션(Detokenization)의 내부 메커니즘을 분석한 연구입니다. Llama2-7B를 통해 이 과정이 초기 레이어에서 어텐션과 MLP의 협업으로 이루어지는 2단계 구조임을 규명했습니다.

핵심 포인트

  • 디토크나이제이션은 주로 모델의 초기 레이어에서 발생함
  • 어텐션은 신호 전달을, MLP는 로컬 임베딩 결합을 담당함
  • 위치 인코딩 방식(RoPE vs Learned-absolute)에 따라 처리 깊이가 달라짐
  • 초기 레이어 액티베이션만으로 디토크나이제이션 성공 여부 예측 가능

Transformer 언어 모델(language models)은 서브워드 조각(subword fragments)으로 제공된 입력을 처리하지만, 자연어 의미론(semantics)은 대개 단어 수준의 개념(word-level concepts)에 의존합니다. 디토크나이제이션(Detokenization)은 모델이 이러한 두 가지 사실을 조화시키는 과정으로, 계산을 통해 서브워드들을 단어 수준의 표현(representations)으로 집계합니다. 이전 연구들은 이 과정이 주로 초기에서 중간 단계의 레이어(layers)에서 일어난다는 것을 발견했지만, 지금까지 그 과정의 정확한 메커니즘은 규명되지 않았습니다. 우리는 서로 다른 모델 구성 요소의 기여도를 격리하는 통제된 쌍 실험(paired experiments)에서 액티베이션 패칭(activation patching)을 사용하여 디토크나이제이션의 내부를 깊이 있게 탐구하였으며, Llama2-7B에서의 영어 디토크나이제이션이 레이어 1(Layer 1)에서의 2단계 과정으로 국한됨을 확인했습니다. 어텐션(Attention)은 필요한 경우 순차적 릴레이(sequential relays)를 사용하여 비최종 서브워드(nonfinal subwords)로부터 토큰 특화 신호(token-specific signal)를 전달하는 한편, MLP는 이를 로컬 임베딩(local embedding)과 결합합니다. 이러한 2단계 구조는 8개 제품군에 속하는 12개 모델로 일반화되지만, 이 과정이 일어나는 깊이는 위치 인코딩(positional encoding)의 종류에 따라 달라집니다. RoPE 기반 모델은 15개 레이어에 걸쳐 디토크나이제이션을 수행하는 반면, 학습된 절대적(learned-absolute) 모델은 510개 레이어가 소요됩니다. 마지막으로, 우리는 초기 레이어의 액티베이션(activations)만을 기반으로 디토크나이제이션 과정의 성공 여부를 결정하는 프로브(probe)를 제공하며, 이는 문맥(context)의 양에 따라 0.94-0.97 AUROC의 성능을 보입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0