arXiv논문2026. 06. 10. 11:37

응답 지정형 대규모 언어 모델 언러닝을 위한 영공간 제약 저차원 적응 (Null-Space Constrained Low-Rank

요약

LLM 언러닝 시 유익한 지식은 보존하고 원치 않는 지식만 효과적으로 제거하는 NSRU 프레임워크를 제안합니다. 영공간 제약 저차원 적응 기술을 통해 모델의 유용성을 유지하면서도 타겟 응답을 정밀하게 제어합니다.

핵심 포인트

NSRU 프레임워크를 통한 제어된 LLM 언러닝 구현
영공간 투영을 활용한 업데이트 국소성 및 유용성 보존
안전 타겟 학습과 원치 않는 응답 억제의 동시 최적화
TOFU 및 WMDP 데이터셋 실험을 통한 성능 검증

대규모 언어 모델 (Large Language Model, LLM) 언러닝 (Unlearning)은 유익한 능력은 보존하면서 지정된 원치 않는 지식을 억제하는 것을 목표로 합니다. 많은 언러닝 목적 함수들이 원치 않는 답변을 억제하는 데 집중하는 반면, 최근의 타겟 가이드 변형 모델들은 교체 동작을 지정하지만 업데이트 국소성 (Update Locality)은 여전히 크게 제약되지 않은 상태로 남겨둡니다. 본 논문은 제어된 LLM 언러닝을 위한 투영 제약 저차원 적응 프레임워크인 extit{Null-Space Constrained Response-Specified Unlearning} (NSRU)을 소개합니다. NSRU는 명시적으로 구조화된 안전한 타겟 응답 (Safe Target Response)을 사용하여 각 망각 쿼리 (Forget Query)에 대한 원하는 동작을 지정하는 동시에, 원래의 원치 않는 콘텐츠를 억제합니다. 적응을 국소화하기 위해, NSRU는 유익한 은닉 표현 (Benign Hidden Representations)으로부터 모듈별 유지 서브스페이스 (Retain Subspaces)를 추정하며, 직교 투영된 저차원 파라미터화 (Orthogonal-projected Low-rank Parameterization)를 사용하여 LoRA 업데이트를 유지 서브스페이스의 영공간 (Null Space) 내로 한정합니다. 결과적으로 도출된 목적 함수는 이러한 제약된 파라미터화 하에서 안전 타겟 학습 (Safe-target Learning), 원치 않는 응답 억제 (Undesired-response Suppression), 그리고 유지 보존 (Retention Preservation)을 공동으로 최적화합니다. 우리는 투영된 업데이트가 유지 측면의 섭동 (Perturbations)을 줄이는 동시에 망각 쿼리 동작을 형성하기 위한 편집 가능한 방향 (Editable Directions)을 보존한다는 것을 보여주는 국소 1차 분석 (Local First-order Analysis)을 제공합니다. TOFU 데이터셋에 대한 실험 결과, NSRU는 대표적인 베이스라인 모델들에 비해 추출 가능한 망각 세트 지식을 효과적으로 억제하는 동시에 유지 QA 성능, 모델 유용성 (Model Utility), 그리고 안전 타겟 정렬 (Safe-target Alignment)을 향상시킴을 보여줍니다. WMDP 데이터셋에서 NSRU는 위험 도메인 정확도를 무작위 선택 영역 (Random-choice Region) 근처로 유지하면서도, 광범위하고 도메인 인접한 MMLU 유용성을 보존합니다. 절제 연구 (Ablation Studies)는 안전 타겟 감독 (Safe-target Supervision), 원치 않는 응답 억제, 유지 손실 (Retention Loss), 그리고 영공간 투영 업데이트의 상호 보완적인 역할을 뒷받침하며, 민감도 및 강건성 분석은 테스트된 하이퍼파라미터 및 프롬프트 변형 전반에 걸쳐 안정적인 동작을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

응답 지정형 대규모 언어 모델 언러닝을 위한 영공간 제약 저차원 적응 (Null-Space Constrained Low-Rank

요약

핵심 포인트

댓글