arXiv논문2026. 06. 03. 11:05

LLM에서의 다국어 언러닝 (Multilingual Unlearning): 전이, 역학 및 가역성

요약

본 연구는 영어 중심의 언러닝 연구를 넘어 5개 언어로 확장된 다국어 언러닝의 전이성과 역학을 분석합니다. 언러닝이 주로 후기 디코딩 레이어에서 표면적 억제를 유도한다는 점을 발견했으며, 이를 통해 언러닝된 지식을 상당 부분 복구할 수 있음을 입증했습니다.

핵심 포인트

TOFU 벤치마크를 5개 언어로 확장하여 다국어 언러닝 연구 수행
언어 간 문자 및 어족 공유 정도에 따라 언러닝 전이 효과가 다름
언러닝은 지식 삭제가 아닌 후기 레이어에서의 표면적 억제에 가까움
스티어링 방향을 통해 언러닝된 지식의 최대 90%까지 복구 가능

대규모 언어 모델 (LLMs)은 민감한 사실을 암기할 수 있으며, 이는 비용이 많이 드는 재학습 없이 목표 지식을 제거하는 언러닝 (unlearning) 방법론의 필요성을 불러일으킵니다. 그러나 언러닝 연구는 여전히 영어 중심에 치우쳐 있습니다. 본 연구에서는 TOFU 벤치마크를 5개 언어로 확장하여 다국어 언러닝 (multilingual unlearning)을 연구하며, 다양한 언어 조합을 통해 모델을 미세 조정 (fine-tune), 언러닝, 그리고 질의 (query) 합니다. 우리는 언러닝 전이 (unlearning transfer), 즉 언러닝이 수행된 언어 이외의 언어에서 사실을 "망각"하는 능력이 매우 가변적이라는 것을 발견했습니다. 예를 들어, 문자와 어족 (families)을 공유하는 언어 사이에서 전이가 가장 강력하게 나타나며, 언러닝이 수행된 언어가 어떤 질의 언어에서 가장 강력한 전이가 발생할지를 예측할 수 있음을 보여줍니다. 층별 분석 (Layer-wise analysis) 결과, 언러닝은 초기 레이어(early layers)의 공유된 교차 언어 잠재 공간 (cross-lingual latent space)을 대부분 온전하게 유지하는 대신, 주로 후기 디코딩 레이어 (later decoding layers)에서 작동한다는 것을 밝혀냈습니다. 이는 언러닝이 지식을 진정으로 삭제하는 것이 아니라, 오히려 표면적인 억제 (superficial suppression)를 유도한다는 것을 시사합니다. 이러한 구조를 활용하여, 단일 추론 시 스티어링 방향 (inference-time steering direction)은 언어 전반에 걸쳐 이러한 억제의 상당 부분을 되돌려, 언러닝된 지식의 50% (Qwen) 및 90% (Gemma)를 복구합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM에서의 다국어 언러닝 (Multilingual Unlearning): 전이, 역학 및 가역성

요약

핵심 포인트

댓글