부분 공간 투영(Subspace Projection)에 대한 해석 가능성 기반 계층 선택: 원시 작업 벡터 모델 편집을 위한
요약
Gemma-3-4B-IT를 대상으로 SAE를 활용한 모델 편집 연구를 수행하여, 작업 벡터를 SAE 부분 공간에 투영할 때 발생하는 정보 병목 현상을 규명했습니다. SAE를 직접적인 편집 도구가 아닌 계층 진단 도구로 활용함으로써 수학적 추론 성능을 유의미하게 향상시키는 새로운 프레임워크를 제안합니다.
핵심 포인트
- SAE 특징 부분 공간 투영 시 정보 병목으로 인한 성능 저하 발견
- 활성화 공간과 가중치 공간 사이의 기하학적 불일치 확인
- SAE를 편집 도구가 아닌 계층 진단용(Stethoscope)으로 활용 제안
- Minerva Math 벤치마크 정수론 정확도 29.6%에서 39.4%로 향상
- 추가 추론 비용이 없는 결정론적 모델 편집 프레임워크 제공
LLM(Large Language Models)은 전체 미세 조정(Full Fine-tuning)과 관련된 계산 비용이나 파괴적 망각(Catastrophic Forgetting)을 초래하지 않으면서 도메인 특화 능력을 향상시키기 위해 점점 더 정밀한 모델 편집(Model Editing)을 필요로 하고 있습니다. 희소 오토인코더(Sparse Autoencoders, SAEs)는 이러한 환경에서 원칙적으로 개입 지점을 특징 수준(Feature-level)에서 식별할 수 있게 해주는 유망한 도구로 부상했습니다. 본 연구에서는 Gemma-3-4B-IT를 대상으로 수학적 추론을 위한 SAE 가이드 편집 파이프라인을 엄격하게 평가하고, 근본적인 실패 모드(Failure Mode)를 발견했습니다. 즉, 작업 벡터(Task Vectors)를 SAE 특징 부분 공간(Feature Subspaces)에 투영하는 직관적이고 매력적인 접근 방식이 수정 에너지(Modification Energy)의 약 97%를 버리는 정보 병목(Information Bottleneck)으로 작용하여, 7개의 수학 과목 전체에서 통계적으로 유의미한 개선을 전혀 이끌어내지 못한다는 점을 밝혀냈습니다. 우리는 이러한 실패가 활성화 공간(Activation-space)의 SAE 방향과 가중치 공간(Weight-space)의 작업 벡터 사이의 기하학적 불일치(Geometric Misalignment)에서 기인함을 보여줍니다. 이에 따라 우리는 관점의 전환을 제안합니다: '메스(Scalpel)가 아닌 청진기(Stethoscope)로서의 SAE'로, 즉 SAE를 개입 수준의 필터링(Intervention-level Filtering)이 아닌 계층 수준의 진단(Layer-level Diagnosis) 용도로 사용하는 것입니다. SAE에서 도출된 특이성 점수(Specificity Score)에 의해 식별된 계층에만 필터링되지 않은 원시 작업 벡터를 주입함으로써, Minerva Math 벤치마크에서 정수론(Number Theory) 정확도를 29.6%에서 39.4%로 향상시켰습니다 (z=+3.41, p=0.0007). 7개 수학 과목 중 5개가 유의미하게 향상되었으며, 성능이 유의미하게 저하된 과목은 없었습니다. 우리의 방법은 완전히 결정론적(Deterministic)이며, 추가적인 추론 비용이 필요하지 않고, 해석 가능성 기반 모델 편집을 위한 원칙적인 프레임워크를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기