arXiv논문2026. 06. 26. 11:17

가중치에서 특징으로: LLM 지속 학습을 위한 SAE 유도 활성화 정규화

요약

LLM의 지속 학습 시 발생하는 치명적 망각 문제를 해결하기 위해 가중치 공간이 아닌 SAE(Sparse Autoencoders)를 활용한 특징 공간 정규화 방식을 제안합니다. 이 방법은 모델의 다의적 특성을 극복하여 안정성과 가소성 사이의 균형을 맞추며 기존 EWC 방식보다 뛰어난 성능과 메모리 효율을 보여줍니다.

핵심 포인트

가중치 공간 정규화의 한계를 SAE 기반 특징 공간 정규화로 해결
SAE를 통해 단의적(monosemantic) 특징을 추출하여 지식 보호
이전 태스크 데이터 없이 마스크만으로 지속 학습 가능
TRACE 및 MedCL 벤치마크에서 기존 방식 대비 우수한 성능 입증
가중치 공간보다 낮은 차원의 특징 공간을 사용하여 메모리 효율성 증대

Elastic Weight Consolidation (EWC)와 같은 가중치 공간 정규화 (Weight-space regularization) 방법들은 지속 학습 (Continual learning)에서 발생하는 치명적 망각 (Catastrophic forgetting) 문제를 해결하기 위한 표준적인 접근 방식입니다. 그러나 이러한 방법들은 대규모 언어 모델 (LLM)에 적용될 때 성능이 저하되는 경향이 있습니다. 우리는 이러한 성능 저하가 대규모 언어 모델의 "다의적 (polysemantic)" 특성에 의해 부분적으로 설명될 수 있다고 주장합니다. 즉, EWC 스타일의 정규화에서 활용되는 가중치별 중요도 추정치는 너무 거칠어서(coarse) 보호가 필요한 지식을 격리할 수 없습니다. 본 논문에서는 사전 학습된 희소 오토인코더 (Sparse Autoencoders, SAEs)를 단의적 (monosemantic) 특징 사전 (feature dictionary)으로 사용하여, 모델의 활성화 공간 (activation space)에서 정규화를 수행하는 방식을 제안합니다. 제약 최적화 (Constrained optimization) 관점에서, 우리는 SAE 특징 사전을 사용하여 안정성 (stability)과 가소성 (plasticity) 사이의 균형을 명시적으로 맞추는 새로운 손실 함수를 도출하며, EWC가 단방향 가중치 공간 페널티 설정에서의 특수한 사례임을 보여줍니다. 이전 태스크의 예시를 저장하거나 다시 방문하는 리플레이 기반 (Replay-based) 방법들과 달리, 우리의 방법은 마스크 (mask) 구축 이후에는 이전 태스크의 데이터를 필요로 하지 않습니다. 현재 태스크의 데이터를 사용하여 압축된 SAE 특징 마스크를 계산하며, 이후 학습을 위해 이 마스크만을 유지합니다. 또한, 특징 공간 (feature space)은 파라미터 공간 (parameter space)보다 차원이 현저히 낮기 때문에, 제안된 방법은 메모리 효율성이 더 높습니다. TRACE 및 MedCL 지속 학습 벤치마크에서, 이 방법은 태스크별 아키텍처 구성 요소를 도입하지 않는 접근 방식 중 가장 강력한 결과를 달성하였으며, EWC와 같은 전통적인 가중치 공간 정규화 방법들을 능가했습니다. 성능 비교를 넘어, 우리는 다의성 (polysemanticity) 가설에 대한 실증적 증거를 제공합니다. 즉, 태스크 관련 표현 (task-relevant representations)은 SAE 특징 기저 (feature basis)에서는 선형적으로 분리 가능하지만, 가중치 기저 (weight basis)에서는 우연과 구별할 수 없으며, 가중치 공간 보호는 개념 수준에서 거의 선택적이지 않다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

가중치에서 특징으로: LLM 지속 학습을 위한 SAE 유도 활성화 정규화

요약

핵심 포인트

댓글