arXiv논문2026. 06. 18. 11:08

대규모 언어 모델(LLM)의 암기 완화를 위한 출력 벡터 편집 (Output Vector Editing)

요약

LLM의 데이터 암기 문제를 해결하기 위해 뉴런 활성화 대신 출력 벡터를 수정하는 새로운 편집 방식을 제안합니다. MLP 뉴런의 출력 벡터를 최소한으로 수정하여 잔차 스트림에 대한 기여도를 재지정함으로써, 모델 성능 저하 없이 암기된 시퀀스를 효과적으로 억제합니다.

핵심 포인트

뉴런 활성화 제어가 아닌 출력 벡터 편집을 통한 암기 완화 방식 제안
OLMo-7B 모델에서 암기된 시퀀스에 대해 최대 87.9%의 억제율 달성
기존 뉴런 아블레이션 방식보다 2.7배 높은 억제 성능 입증
성공률과 국소성 사이의 트레이드오프를 고려한 다양한 편집 모드 제공
어텐션 메커니즘을 보완적 백업으로 활용하여 편집 실패 사례 복구 가능

대규모 언어 모델(Large Language Models, LLMs)은 학습 데이터의 시퀀스를 암기하고 재현하며, 이로 인해 개인정보 보호, 저작권 및 보안 위험을 초래합니다. 기존의 뉴런 수준 완화 방법들은 편집을 뉴런 활성화(neuron activations)를 0으로 만드는 것과 동일시하지만, 활성화는 뉴런이 관여할지 여부만을 제어할 뿐입니다. 잔차 스트림(residual stream)에 기록되고 중첩(superposition)을 통해 여러 특징을 인코딩하는 것은 바로 출력 벡터(output vector)입니다. 우리는 출력 벡터 편집(output vector editing)을 제안합니다. 이는 암기된 연속 문구(memorized continuation)를 담당하는 소수의 MLP 뉴런 세트를 찾아내고, 이들의 출력 벡터를 최소한으로 수정하여 어휘 공간(vocabulary space)에 방해 요소(distractor)를 도입함으로써, 활성화는 변경하지 않으면서 잔차 스트림에 대한 기여도를 재지정하는 제약 최적화(constrained-optimization) 가중치 편집 방식입니다. 360M에서 7B 파라미터 규모의 4개 모델(SmolLM-360M, OLMo-1B, OLMo-7B, Llama2-7B)을 대상으로 평가를 진행하였으며, 특히 오픈 웨이트(open weights)와 사전 학습 코퍼스(pretraining corpus)를 통해 체계적인 마이닝이 가능한 OLMo-7B에 집중하여 6,831개의 암기된 시퀀스를 찾아내어 최대 87.9%의 억제율을 달성했습니다. 동일하게 위치가 파악된 뉴런에 대해 제로 아블레이션(zero ablation)을 수행했을 때보다 2.7배 높은 격차를 보인 것은, 이러한 억제가 단순한 위치 파악(localization) 때문이 아니라 출력 벡터 편집으로부터 기인함을 보여줍니다. 네 가지 편집 모드는 공격적인 억제부터 최소한의 재지정까지 스펙트럼을 형성하며, 앙상블(ensemble) 적용 시 암기된 시퀀스의 96.5%를 커버하는 반면, 우리가 권장하는 단일 모드 구성은 치명적인 국소성 실패(catastrophic locality failures) 없이 81.5%에 도달합니다. 나아가 우리는 MLP 전용 편집으로는 도달할 수 없는 약 14%의 시퀀스에서 기계적 경계(mechanistic boundary)를 확인했습니다. 이러한 실패가 전체적으로 어텐션(attention) 주도적인 것은 아니지만, 가장 크게 기여하는 어텐션 헤드(attention heads)를 아블레이션(ablating)하면 그중 60~64%를 복구할 수 있었으며, 접두사(prefix)에서 토큰을 복사하는 연속 문구에서 더 강력한 복구 성능을 보였습니다. 이는 어텐션을 주요 메커니즘이라기보다 보완적인 백업(fallback)으로 위치시킵니다. 편집 모드의 순서와 성공-국소성 트레이드오프(success-locality trade-off)는 4개 모델 모두에서 전이되었으며, 성공률은 모델 제품군(family)보다는 모델 크기에 따라 확장되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)의 암기 완화를 위한 출력 벡터 편집 (Output Vector Editing)

요약

핵심 포인트

댓글