arXiv논문2026. 06. 23. 12:17

첫 번째 토큰 브로드캐스터(First-Token Broadcasters): Transformer에서 언어 정체성과 분산된

요약

다국어 언어 모델에서 언어 정체성을 결정하는 '첫 번째 토큰 브로드캐스터' 헤드를 식별하는 LIHA 기법을 소개합니다. 연구 결과, 인스트럭션 튜닝이 언어 정체성 회로를 초기 레이어로 국소화시킨다는 인과적 증거를 발견했습니다.

핵심 포인트

LIHA 기법을 통해 언어 전환을 주도하는 특정 어텐션 헤드 식별
첫 번째 토큰 브로드캐스터 헤드는 생성 전반에 언어 신호를 전파
인스트럭션 튜닝은 언어 정체성 회로를 초기 레이어로 집중시킴
언어 정체성 회로의 보상적 재분배는 상위 레이어에서 발생

왜 다국어 언어 모델(multilingual language models)은 때때로 잘못된 언어로 생성하며, 왜 이를 해결하는 것이 이토록 어려운가? 우리는 언어 정체성 헤드 절제(Language Identity Head Ablation, LIHA)를 소개한다. 이는 각 어텐션 헤드(attention head)를 개별적으로 0으로 만드는 인과적 개입(causal intervention)이며, 7개 언어에 걸쳐 2,700개의 프롬프트-언어 쌍으로 구성된 병렬 데이터셋을 통해 결과적인 언어 전환율(language switch rate)을 측정한다. GPT-2에 적용했을 때, LIHA는 L6H1(전환율 0.32, 모집단 평균보다 3.23 $\sigma$ 높음)이 주도하는 소수의 첫 번째 토큰 브로드캐스터 헤드(first-token broadcaster heads)를 식별해냈다. 이 헤드들은 첫 번째 프롬프트 토큰에 지속적으로 어텐션(attend)하며, 생성 과정 전반에 걸쳐 해당 언어 신호를 전파한다. 헤드가 절제될 때 발생하는 보상적 재분배(Compensatory redistribution)는 통계적으로 유의미하며(p < $10^{-5}$), 방향적이고 계층적인 패턴을 따른다. 즉, 보상은 항상 절제된 헤드보다 상위 레이어의 헤드들을 동원하며, 이는 전역적 확산(global diffusion)보다는 피드포워드 캐스케이드(feedforward cascade)를 시사한다. 훈련 방식(training regime)이 이러한 회로를 어떻게 형성하는지 조사하기 위해, 우리는 아키텍처와 크기는 동일하지만 훈련 방식만 다른 통제된 쌍인 Qwen2.5-1.5B-Base와 Qwen2.5-1.5B-Instruct에 LIHA를 적용한다. 베이스 모델은 거의 평탄하며(최대 SR=0.016, 336개 헤드 중 200개가 SR=0.0), 인스트럭트(instruct) 모델은 L0H5(SR=0.224, 평균보다 8.93 $\sigma$ 높음)가 주도하며 레이어 0에 인과적 영향력을 날카롭게 집중시키고 나머지 모든 레이어는 0에 가깝다. 이러한 통제된 비교는 인스트럭션 튜닝(instruction tuning)이 언어 정체성 회로를 초기 레이어 국소화(early-layer localization) 방향으로 재구성한다는 직접적인 인과적 증거를 제공한다. 중국어와 러시아어를 이용한 확장 실험은 GPT-2에서 첫 번째 토큰 브로드캐스팅이 문자(script) 특이적임을 확인시켜 주었으며, 비라틴 언어들은 인스트럭션 튜닝된 모델과 동일한 위치인 레이어 0에서 처리된다. 코드와 데이터는 출판 시 공개될 예정이다.

AI 자동 생성 콘텐츠

원문 바로가기

첫 번째 토큰 브로드캐스터(First-Token Broadcasters): Transformer에서 언어 정체성과 분산된

요약

핵심 포인트

댓글