라틴 기질: 언어 모델이 문자를 표현하고 매개하는 방식
요약
LLM이 서로 다른 문자를 처리할 때 내부적으로 어떻게 정보를 매개하는지 분석한 연구입니다. 연구 결과, 모델은 라틴 문자를 중심적인 잠재 표현으로 사용하는 '라틴 기질'을 보이며, 언어와 무관한 공통 구성 요소를 통해 문자를 전환함을 밝혀냈습니다.
핵심 포인트
- LLM 내부에서 일관된 잠재적 로마자화 과정 확인
- 선형 스티어링을 통한 문자 체계 전환 가능성 입증
- 문자 라우팅을 담당하는 언어 불가지론적 어텐션 헤드 발견
- 라틴 문자에 대해 특권적인 잠재 표현 기질 존재
많은 언어는 여러 문자로 표기되며, 이로 인해 거대 언어 모델 (LLMs)은 서로 다른 철자 형태(orthographic forms)로 동등한 언어적 콘텐츠를 생성해야 합니다. 기존 연구는 LLMs가 공유된 잠재 표현 (latent representations)을 통해 정보를 전달한다고 시사하지만, 모델이 내부적으로 문자의 변이를 어떻게 매개하는지는 여전히 잘 알려져 있지 않습니다. 우리는 먼저 로짓 렌즈 (logit lens)를 통해 레이어별 출력 분포를 조사하여 음차 (transliteration) 과정 중 일관된 잠재적 로마자화 (latent romanization)가 일어남을 확인하고, 이어서 문자 생성에 대한 표현론적 (representational) 및 기계론적 (mechanistic) 분석을 통해 이 문제를 연구합니다. 표현론적 수준에서, 우리는 동일 언어의 문자(scripts)들이 레이어를 거치며 점점 더 분리 가능해진다는 점과, 단순한 선형 스티어링 방향 (linear steering direction)이 의미적 내용을 대부분 유지하면서도 모델의 출력 문자를 전환할 수 있음을 보여줍니다. 이 벡터는 학습 과정에서 보지 못한 문자 체계에 대해 비대칭적으로 일반화되어, 비라틴(non-Latin) 출력을 라틴(Latin) 출력으로 안정적으로 전환하지만, 라틴 출력을 다양한 비라틴 문자로 매핑하는 데는 한계가 있습니다. 기계론적 수준에서는 문자 선택을 인과적으로 매개하는 소수의 후기 레이어 어텐션 헤드 (attention heads)를 국소화합니다. 이러한 헤드들은 서로 관련 없는 언어와 문자 체계 전반에 걸쳐 전이되며, 이는 문자 라우팅 (script routing)이 언어에 구애받지 않는 구성 요소 (language-agnostic components)에 의해 구현됨을 시사합니다. 두 분석 모두에서 우리는 일관된 방향성 비대칭을 관찰했습니다. 즉, 비라틴 출력은 작고 식별 가능한 게이트 (gate)에 의해 생성되는 반면, 라틴 문자 출력은 네트워크 전반의 분산된 기여를 통해 나타납니다. 종합적으로, 우리의 연구 결과는 LLMs가 공유된 잠재 표현을 중심으로 문자 변이를 조직하는 동시에, 라틴 문자에 대해 특권적인 기질 (privileged substrate)을 나타내고 있음을 암시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기