TRACE: 적응 인식 프로빙을 통한 지속적 미세 조정(Continual Fine-Tuning)용 작업별 파라미터 발견
요약
지속적 미세 조정 시 발생하는 치명적 망각 문제를 해결하기 위해, 적응 인식 프로빙을 통해 작업별 핵심 파라미터를 식별하는 TRACE 방법론을 제안합니다. 짧은 웜스타트 프로브를 활용해 각 작업에 필수적인 파라미터 서브셋을 찾아내어 이전 지식을 보존하면서도 효율적인 학습을 가능하게 합니다.
핵심 포인트
- 치명적 망각을 완화하는 TRACE 방법론 제안
- 적응 인식 프로빙을 통한 작업별 핵심 파라미터 식별
- 중요도 점수 산정과 특이성 분석 전략 활용
- 활성 작업의 파라미터만 업데이트하여 지식 보존
- 소형 모델에서 대형 모델로의 전이 가능성 검증
실제 배포 환경에서 LLM(Large Language Models)은 프로덕션 환경에서 최신 상태를 유지하기 위해 여러 작업에 걸쳐 지속적으로 적응(continually adapted)되는 경우가 많으며, 이때 새로운 미세 조정(fine-tuning)은 이전에 학습된 기술을 보존해야 합니다. 그러나 작업을 무분별하게 혼합하면 작업 전문성(task specialization)이 희석될 수 있으며, 순차적 미세 조정(sequential fine-tuning, 전체 파라미터 또는 Low-Rank Adaptation)은 파괴적인 덮어쓰기로 인해 종종 치명적 망각(catastrophic forgetting)을 유발합니다. 리플레이 기반의 지속적 튜닝(Replay-based continual tuning)과 별도의 작업별 어댑터(task-specific adapters)를 유지하는 방식은 망각을 완화할 수 있지만, 추가적인 계산, 저장 및 관리 오버헤드를 발생시킵니다. 단일 작업에 대한 LLM 파라미터의 중복성을 인식하여, 우리는 지속적인 작업 적응을 적응 인식 프로빙(adaptation-aware probing)을 통한 작업별 파라미터 발견으로 재정의합니다. 즉, 짧은 웜스타트 프로브(warm-start probe)를 통해 작업의 적응 흔적(adaptation trace)을 노출함으로써, 치명적 망각을 완화하기 위해 각 작업에 필수적인 작은 파라미터 서브셋을 식별하고 격리할 수 있습니다. 이러한 관점을 바탕으로, 우리는 지속적 미세 조정(Continual Fine-Tuning)을 위해 적응 인식 프로빙을 통해 작업별 파라미터를 발견하는 새로운 접근 방식인 TRACE(Task-specific paRameters via Adaptation-aware probing for Continual finE-tuning)를 소개합니다. 우리는 웜스타트된 모델과 사전 학습된(pre-trained) 모델을 비교하여 작업별 핵심 파라미터를 도출하기 위해 짧은 웜스타트 미세 조정을 수행합니다. 핵심 파라미터는 중요도 점수 산정(importance scoring; L$_2$ norm 및 Fisher Information)과 특이성 분석(specificity analysis; 파라미터 업데이트의 코사인 유사도)이라는 두 가지 전략을 통해 식별됩니다. 지속적 미세 조정 설정에서, 활성 작업의 핵심 파라미터만 업데이트되고 나머지는 동결(frozen)된 상태로 유지되어 이전 지식을 보존합니다. 우리는 제안된 방법의 우수한 성능을 입증하기 위해 여러 표준 벤치마크에 걸쳐 광범위한 실험을 수행합니다. 또한, 모델 간 및 규모 간 전이 가능성(cross-model and scale transferability) 연구를 통해 우리 방법의 일반화 성능을 검증하며, 자원 제약 하에서 대규모 모델의 미세 조정을 안내하는 "소형에서 대형으로(small-to-large)" 패러다임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기