기호 음악 생성에서 해석 가능한 속성 제어를 위한 활성화 스티어링 기반 잠재 공간 얽힘 해제
요약
Transformer 기반 음악 생성 모델에서 음높이와 길이 같은 이산적 속성을 재학습 없이 제어하는 프레임워크를 제안합니다. 활성화 스티어링과 Gram-Schmidt 직교화를 통해 속성 간 얽힘 문제를 해결하고 독립적인 제어를 구현했습니다.
핵심 포인트
- 재학습 없이 활성화 스티어링으로 음악 속성 변조 가능
- DiffMean 방법론을 통한 잔차 스트림 내 잠재 방향 분리
- Gram-Schmidt 직교화로 다중 속성 간 특징 얽힘 해결
- 선형 표현 가설 검증 및 결정론적 속성 제어 달성
Transformer 기반 아키텍처는 복잡한 기호 시퀀스 (symbolic sequences) 생성 기술을 크게 발전시켰으나, 이산 신호 속성 (discrete signal attributes)에 대한 미세하고 해석 가능한 제어를 달성하는 데에는 여전히 큰 격차가 존재합니다. 본 논문은 Multitrack Music Transformer (MMT)의 기계론적 해석 가능성 (mechanistic interpretability)을 조사하고, 추론 시점의 활성화 스티어링 (activation steering)을 통해 이 격차를 해소하기 위해 재학습 없이 결정론적 속성 변조 (deterministic attribute modulation)를 수행하는 프레임워크를 제안합니다. 차이 평균 (Difference-in-Means, DiffMean) 방법론을 활용하여, 잔차 스트림 (residual stream) 내에서 신호 속성, 특히 음높이 (Pitch)와 길이 (Duration)에 대한 잠재 방향 (latent directions)을 분리합니다. 우리는 이 영역에서 선형 표현 가설 (Linear Representation Hypothesis)을 검증하였으며, 스티어링 크기 (steering magnitude)와 속성 변화 (attribute shift) 사이의 높은 상관관계를 달성했습니다. 다중 속성 스티어링에서 발생하는 고유한 특징 얽힘 (feature entanglement) 문제를 해결하기 위해, 우리는 Gram-Schmidt 직교화 (Gram-Schmidt Orthogonalization)를 활용하는 이중 스티어링 (Dual Steering) 프레임워크를 도입합니다. 실험 결과, 이러한 기하학적 디커플링 (geometric decoupling)이 단순 벡터 합산 (naive vector addition) 방식에 비해 개념적 간섭 (conceptual interference)과 신호 저하 (signal degradation)를 줄여주며, 강력한 자기회귀 조건화 (autoregressive conditioning) 상황에서도 독립적인 결정론적 제어를 가능하게 함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기