arXiv논문2026. 06. 02. 13:03

지속 학습을 위한 적대적 섭동의 재구성: 방어에서 능동적 정렬로

요약

LLM의 지속 학습(Continual Learning) 과정에서 발생하는 망각과 적대적 섭동 취약성을 해결하기 위한 AdvCL 프레임워크를 제안합니다. 적대적 섭동을 기하학적 제어 신호로 재구성하여 모델의 강건성과 전이 성능을 동시에 향상시킵니다.

핵심 포인트

AdvCL은 적대적 섭동을 활용한 안정적 지속 적응 메커니즘 제안
Intra-Smooth 모듈을 통한 국소적 매끄러움 촉진
Proto-Clip을 이용한 과도한 정렬 방지 및 유사도 클리핑
Inter-Align을 통한 이전 작업과의 표현 격차 감소
기존 CL 패러다임에 개별 모듈 통합 가능

역동적인 환경에서 대규모 언어 모델 (Large Language Models, LLMs)은 새로운 작업에 지속적으로 적응해야 하지만, 지속 학습 (Continual Learning, CL)은 종종 망각 (forgetting), 제한된 전이 (limited transfer), 그리고 적대적 섭동 (adversarial perturbations)에 대한 취약성 문제를 겪습니다. 이를 해결하기 위해, 우리는 안정적인 지속적 적응을 위한 기하학적 제어 신호 (geometric control signal)로서 적대적 섭동을 재구성하는 AdvCL을 제안합니다. AdvCL은 세 가지 플러그인 모듈을 결합합니다: Intra-Smooth는 작은 적대적 섭동을 통해 국소적 매끄러움 (local smoothness)을 촉진합니다; Proto-Clip은 현재 작업 프로토타입 (task prototype)에 대한 과도한 정렬을 방지하기 위해 유사도 클리핑 (similarity clipping)을 사용합니다; 그리고 Inter-Align은 표현 격차 (representational gaps)를 줄이기 위해 이전 작업 프로토타입을 향한 방향성 정렬 (directional alignment)을 적용합니다. 실험 결과, 표준 성능과 강건성 (robustness) 모두에서 일관된 이득을 보였으며, 더 낮은 망각률과 더 강력한 전이 성능을 확인했습니다. 우리는 나아가 섭동 설정에 대한 Intra-Smooth의 민감도와 작업 유사도 및 기하학적 거리(geometric distance)에 미치는 Inter-Align의 효과를 정량화함으로써 핵심 메커니즘을 분석합니다. 요약하자면, 이 모듈들은 결합되었을 때 상호 보완적인 이득을 제공하며, 각 모듈은 리플레이 (replay), 정규화 (regularization), 동적 아키텍처 (dynamic architectures)를 포함한 다양한 CL 패러다임에 개별적으로 통합될 수 있어, 지속 학습을 위한 기하학적 제어 메커니즘을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지속 학습을 위한 적대적 섭동의 재구성: 방어에서 능동적 정렬로

요약

핵심 포인트

댓글