GEMS: 기하학적 제약이 LLM의 다중 의미 중첩을 가능하게 함
요약
LLM의 추론 시점에 은닉 상태를 수정하는 Activation Steering 기술에서 발생하는 모델 붕괴 문제를 해결하기 위한 GEMS 방법론을 제안합니다. 분포 편차와 방향 간섭이라는 두 가지 원인을 기하학적 제약 조건으로 해결하여 다중 의미 중첩을 가능하게 합니다.
핵심 포인트
- Activation Steering 시 발생하는 모델 붕괴의 두 가지 원인 규명
- 분포 편차 해결을 위한 노름 보존 및 표적 어텐션 경로 주입
- 방향 간섭 해결을 위한 실시간 직교화 기술 적용
- GSM8K 데이터셋에서 정확도를 92%에서 98%로 향상
- 3B에서 31B 규모의 다양한 모델 아키텍처에서 효과 입증
Activation steering (활성화 스티어링)은 재학습 없이 추론 시점에 중간 은닉 상태(intermediate hidden states)를 수정하여 모델의 동작을 제어합니다. 기존 방식은 단일 방향 주입만을 처리합니다. 제약 조건 없이 여러 의미적 방향이 중첩될 경우 모델은 붕괴(collapse)됩니다. 우리는 이러한 붕괴가 독립적으로 작용하는 두 가지 원인으로 분해됨을 보여줍니다: 하나는 층(layer)을 거치며 가산적 섭동(additive perturbations)이 노름(norm) 측면에서 누적되어 활성화를 학습 분포 밖으로 몰아내는 분포 편차(distributional deviation)이며, 다른 하나는 비직교(non-orthogonal) 의미 벡터들이 중첩될 때 서로를 상쇄시키는 방향 간섭(directional interference)입니다. 이 두 가지 원인은 학습이 필요 없는(training-free) 다방향 개입이 반드시 해결해야 하는 설계 제약 조건을 정의합니다. 이러한 원리를 구현한 사례로서, 우리는 각 원인을 상응하는 기하학적 제약 조건으로 매핑하는 학습이 필요 없는 방법론인 GEMS를 제안합니다. 즉, 분포 편차를 위해서는 노름 보존 가중 중첩(norm-preserving weighted superposition)과 표적 어텐션 경로 주입(targeted attention-pathway injection)을 사용하고, 방향 간섭을 위해서는 실시간 직교화(real-time orthogonalization)를 사용합니다. GSM8K 데이터셋에서 세 가지 동시 비수학적 방향을 주입했을 때, 정확도를 98%로 유지했습니다(베이스라인 92%). 반면 제약 없는 가산 방식은 4%로 붕괴되었습니다. Wikitext-2에서는 동일한 주입이 단 2.2%의 PPL(perplexity) 증가만을 초래했습니다. 구성 요소별 절제 연구(ablation)를 통해 각 제약 조건의 인과적 역할을 격리하였으며, 층 수준의 프로브(layer-level probes)를 통해 직교화된 신호가 FFN 경로를 통과하여 의미적 특이성을 유지한 채 출력 분포에 도달함을 확인했습니다. 정성적인 스티어링 효과는 3B에서 31B에 이르는 다양한 아키텍처 전반에 걸쳐 전이됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기