조건부 스케일 엔트로피(Conditional Scale Entropy)를 통한 Decoder-Only 언어 모델의 은유 처리 사후 이해
요약
본 연구는 조건부 스케일 엔트로피(CSE)라는 웨이브릿 기반 측정 지표를 도입하여, Decoder-only 언어 모델이 은유적 토큰을 처리하는 방식을 분석했습니다. CSE를 적용한 결과, 테스트된 모든 규모의 Decoder-only 아키텍처에서 은유적 토큰은 문자 그대로의 토큰보다 인접 레이어 위치에서 더 넓은 스펙트럼 너비를 생성한다는 것을 발견했습니다. 이는 다중 스케일 조정이 은유 처리의 일관된 특징임을 보여주며, CSE를 Transformer 구조 분석을 위한 새로운 도구로 제안합니다.
핵심 포인트
- 조건부 스케일 엔트로피(CSE)는 레이어 위치별 주파수 관여도를 측정하는 웨이브릿 유도 지표이다.
- 모든 규모의 Decoder-only 모델에서 은유적 토큰은 문자 그대로의 토큰보다 더 넓은 스펙트럼 너비를 생성한다.
- 이러한 다중 스케일 조정 현상은 의미론적 복잡성이나 명제 내용에 의해 설명되지 않는 일관된 특징이다.
- CSE는 Transformer의 레이어 간 구조를 특성화하는 원칙적인 도구로 활용될 수 있다.
은유 (Metaphor)는 언어 모델이 문맥적 의미가 기본적인 문자 그대로의 의미 (literal sense)와 달라지는 토큰을 해결할 것을 요구합니다. Transformer 모델이 이러한 재해석을 깊이 (depth)에 따라 어떻게 조직하는지 이해하는 것은 기계론적 해석 가능성 (mechanistic interpretability) 분야에서 여전히 미해결 과제로 남아 있습니다. 본 연구에서는 각 레이어 위치에서 Transformer 연산이 주파수 스케일 (frequency scales) 전반에 걸쳐 얼마나 넓게 관여하는지를 나타내는 웨이브릿 (wavelet) 유도 측정 지표인 조건부 스케일 엔트로피 (conditional scale entropy, CSE)를 소개합니다. 두 개의 정리를 통해 CSE가 업데이트 크기 (update magnitude)에 대해 불변함을 입증하여, 업데이트의 강도 (intensity)로부터 구조적 패턴을 분리해 냅니다. CSE를 사용한 결과, 테스트된 모든 Decoder-only 아키텍처(124M에서 20B 파라미터 규모의 GPT-2 family, LLaMA-2 7B, GPT-oss 20B까지)에서 은유적 토큰이 인접한 레이어 위치에서 문자 그대로의 토큰보다 현저히 높은 스펙트럼 너비 (spectral breadth)를 생성한다는 것을 발견했습니다. 이 효과는 클러스터 기반 순열 교정 (cluster-based permutation correction) 후에도 유지되며, 모델 전반에 걸쳐 상대적 깊이의 초기-중기 범위에서 반복적으로 나타나고, 200개의 자연스러운 VUA 쌍에 대한 독립적인 분석과도 일치합니다. 특이성 제어 (Specificity controls)를 통해 이 효과가 의미론적 복잡성 (semantic complexity)이나 일치하는 명제 내용 (propositional content)에 의해 설명되지 않음을 추가로 보여줍니다. 이러한 결과는 조사된 Decoder-only 아키텍처에서 다중 스케일 조정 (multi-scale coordination)이 은유적 언어 처리의 일관된 특징임을 식별하며, CSE를 Transformer의 레이어 간 구조 (cross-depth structure)를 특성화하기 위한 원칙적인 도구로 확립합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기