조건부 스케일 엔트로피(Conditional Scale Entropy)를 통한 Decoder-Only 언어 모델의 은유 처리 사후 이해

은유 (Metaphor)는 언어 모델이 문맥적 의미가 기본적인 문자 그대로의 의미 (literal sense)와 달라지는 토큰을 해결할 것을 요구합니다. Transformer 모델이 이러한 재해석을 깊이 (depth)에 따라 어떻게 조직하는지 이해하는 것은 기계론적 해석 가능성 (mechanistic interpretability) 분야에서 여전히 미해결 과제로 남아 있습니다. 본 연구에서는 각 레이어 위치에서 Transformer 연산이 주파수 스케일 (frequency scales) 전반에 걸쳐 얼마나 넓게 관여하는지를 나타내는 웨이브릿 (wavelet) 유도 측정 지표인 조건부 스케일 엔트로피 (conditional scale entropy, CSE)를 소개합니다. 두 개의 정리를 통해 CSE가 업데이트 크기 (update magnitude)에 대해 불변함을 입증하여, 업데이트의 강도 (intensity)로부터 구조적 패턴을 분리해 냅니다. CSE를 사용한 결과, 테스트된 모든 Decoder-only 아키텍처(124M에서 20B 파라미터 규모의 GPT-2 family, LLaMA-2 7B, GPT-oss 20B까지)에서 은유적 토큰이 인접한 레이어 위치에서 문자 그대로의 토큰보다 현저히 높은 스펙트럼 너비 (spectral breadth)를 생성한다는 것을 발견했습니다. 이 효과는 클러스터 기반 순열 교정 (cluster-based permutation correction) 후에도 유지되며, 모델 전반에 걸쳐 상대적 깊이의 초기-중기 범위에서 반복적으로 나타나고, 200개의 자연스러운 VUA 쌍에 대한 독립적인 분석과도 일치합니다. 특이성 제어 (Specificity controls)를 통해 이 효과가 의미론적 복잡성 (semantic complexity)이나 일치하는 명제 내용 (propositional content)에 의해 설명되지 않음을 추가로 보여줍니다. 이러한 결과는 조사된 Decoder-only 아키텍처에서 다중 스케일 조정 (multi-scale coordination)이 은유적 언어 처리의 일관된 특징임을 식별하며, CSE를 Transformer의 레이어 간 구조 (cross-depth structure)를 특성화하기 위한 원칙적인 도구로 확립합니다.

Insights

조건부 스케일 엔트로피(Conditional Scale Entropy)를 통한 Decoder-Only 언어 모델의 은유 처리 사후 이해

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공