arXiv논문2026. 06. 03. 12:13

임베딩을 잊지 마세요: 임베딩의 정밀한 편집을 통한 강건한 지식 삭제

요약

언어 모델에서 특정 지식을 안전하게 삭제하기 위해 임베딩 레이어에 개입하는 EMBER 기술을 제안합니다. 희소 행렬 분해를 통해 토큰 임베딩의 개념 관련 특징을 정밀하게 제거하여, 기존 방식보다 재학습에 대한 강건성을 크게 높였습니다.

핵심 포인트

임베딩 레이어 조작을 통한 정밀한 지식 삭제 제안
희소 행렬 분해를 활용한 EMBER 모듈 소개
Llama-3.1 등에서 재학습 복구 정확도를 70%대에서 35%로 감소
모델의 일관성 손실을 최소화하며 삭제 효능 및 특이성 향상

언어 모델 (Language Models)이 실제 애플리케이션에 점점 더 많이 배치됨에 따라, 모델로부터 특정 지식을 삭제하는 능력은 안전과 규정 준수를 위해 매우 중요해지고 있습니다. 주요 방법들은 모델의 파라미터 (Parameters)를 업데이트하여 영구적인 제거를 시도하지만, 대상 지식은 적대적 프롬프팅 (Adversarial Prompting)이나 재학습 (Relearning)을 통해 복구되는 경우가 많습니다. 본 연구에서 우리는 이러한 한계가 기존 방법들이 임베딩 레이어 (Embedding Layer)를 간과하는 데서 부분적으로 기인한다는 가설을 세웠습니다. 이를 해결하기 위해, 우리는 토큰 임베딩 (Token Embeddings)에서 개념 관련 특징 (Concept-related Features)을 정밀하게 삭제하기 위해 희소 행렬 분해 (Sparse Matrix Factorization)를 활용하는 플러그 앤 플레이 (Plug-n-play) 삭제 모듈인 EMBedding ERasure (EMBER)를 소개합니다. Gemma-2-2B-it 및 Llama-3.1-8B-Instruct를 대상으로 다양한 개념에 대해 종합적인 평가를 수행한 결과, 기존 방법에 EMBER를 결합하면 일관성 손실을 최소화하면서 다양한 작업 형식에서 삭제 효능과 특이성 (Specificity)이 지속적으로 향상됨을 확인했습니다. 또한, 재학습에 대한 강건성 (Robustness)을 극적으로 개선하여, 기존 방법들이 70%-76%의 복구 정확도를 보인 것에 비해 Llama에서 복구 정확도를 최대 50%까지 낮추어 35%로 제한했습니다. 추가 분석 결과, 일관성 비용 (Coherence Cost)은 국소화되어 있으며 개념 전용 토큰 (Concept-exclusive Tokens)의 작은 집합에만 영향을 미치는 것으로 나타났습니다. 우리의 연구는 강건한 개념 삭제를 위해 정밀한 임베딩 수준의 개입이 필요함을 입증하며, 기존 방법들이 이러한 증강 (Augmentation)을 통해 이점을 얻을 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

임베딩을 잊지 마세요: 임베딩의 정밀한 편집을 통한 강건한 지식 삭제

요약

핵심 포인트

댓글