arXiv논문2026. 06. 09. 10:43

LLM 단어 생성 공정의 내부 구조

요약

Transformer 모델이 서브워드를 단어 수준의 의미로 통합하는 디토크나이제이션(Detokenization)의 내부 메커니즘을 분석한 연구입니다. Llama2-7B를 통해 이 과정이 초기 레이어에서 어텐션과 MLP의 협업으로 이루어지는 2단계 구조임을 규명했습니다.

핵심 포인트

디토크나이제이션은 주로 모델의 초기 레이어에서 발생함
어텐션은 신호 전달을, MLP는 로컬 임베딩 결합을 담당함
위치 인코딩 방식(RoPE vs Learned-absolute)에 따라 처리 깊이가 달라짐
초기 레이어 액티베이션만으로 디토크나이제이션 성공 여부 예측 가능

Transformer 언어 모델(language models)은 서브워드 조각(subword fragments)으로 제공된 입력을 처리하지만, 자연어 의미론(semantics)은 대개 단어 수준의 개념(word-level concepts)에 의존합니다. 디토크나이제이션(Detokenization)은 모델이 이러한 두 가지 사실을 조화시키는 과정으로, 계산을 통해 서브워드들을 단어 수준의 표현(representations)으로 집계합니다. 이전 연구들은 이 과정이 주로 초기에서 중간 단계의 레이어(layers)에서 일어난다는 것을 발견했지만, 지금까지 그 과정의 정확한 메커니즘은 규명되지 않았습니다. 우리는 서로 다른 모델 구성 요소의 기여도를 격리하는 통제된 쌍 실험(paired experiments)에서 액티베이션 패칭(activation patching)을 사용하여 디토크나이제이션의 내부를 깊이 있게 탐구하였으며, Llama2-7B에서의 영어 디토크나이제이션이 레이어 1(Layer 1)에서의 2단계 과정으로 국한됨을 확인했습니다. 어텐션(Attention)은 필요한 경우 순차적 릴레이(sequential relays)를 사용하여 비최종 서브워드(nonfinal subwords)로부터 토큰 특화 신호(token-specific signal)를 전달하는 한편, MLP는 이를 로컬 임베딩(local embedding)과 결합합니다. 이러한 2단계 구조는 8개 제품군에 속하는 12개 모델로 일반화되지만, 이 과정이 일어나는 깊이는 위치 인코딩(positional encoding)의 종류에 따라 달라집니다. RoPE 기반 모델은 1~~5개 레이어에 걸쳐 디토크나이제이션을 수행하는 반면, 학습된 절대적(learned-absolute) 모델은 5~~10개 레이어가 소요됩니다. 마지막으로, 우리는 초기 레이어의 액티베이션(activations)만을 기반으로 디토크나이제이션 과정의 성공 여부를 결정하는 프로브(probe)를 제공하며, 이는 문맥(context)의 양에 따라 0.94-0.97 AUROC의 성능을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 단어 생성 공정의 내부 구조

요약

핵심 포인트

댓글