SHIFT: 검색 증강 생성 (RAG)에서의 지식 충돌 완화를 위한 게이트 변조 활성화 스티어링 (Gate-Modulated
요약
RAG 시스템에서 검색된 문맥과 모델의 기존 지식이 충돌하는 문제를 해결하기 위한 새로운 프레임워크 SHIFT를 제안합니다. 뉴런을 직접 수정하는 대신 경량 게이트 모듈을 통해 내부 활성화를 적응적으로 조절하여 모델의 일반 능력을 유지하며 지식 충돌을 완화합니다.
핵심 포인트
- RAG의 문맥 지식과 파라미터 지식 간 충돌 문제 해결
- 뉴런 수정 방식의 부작용인 연쇄 효과(cascading effects) 방지
- 백본 모델 동결 후 0.01% 미만의 파라미터만 최적화하는 경량 방식
- 게이트 변조 활성화 스티어링을 통한 적응적 내부 표현 조정
검색 증강 생성 (Retrieval-augmented generation, RAG)은 외부 지식을 통합하여 응답 생성을 지원함으로써 대규모 언어 모델 (LLMs)을 강화합니다. 그러나 검색된 문맥 (context)과 파라미터 지식 (parametric knowledge) 사이의 충돌은 RAG 시스템에서 중요한 과제로 부상했습니다. 이러한 충돌을 완화하기 위해, 수많은 연구가 지식 관련 내부 뉴런을 식별하고 편집하여 생성 과정 중 LLMs가 문맥적 증거에 의존하는 능력을 향상시키고자 시도해 왔습니다. 하지만 이러한 뉴런 수준의 접근 방식은 수정된 뉴런이 모델의 광범위한 동작 및 기능과 얽혀 있는 경우가 많기 때문에, LLMs의 일반적인 능력을 저해하는 의도치 않은 연쇄 효과 (cascading effects)를 초래할 수 있습니다. 본 논문에서는 뉴런 수준의 수정을 학습 가능한 게이트 변조 (gate modulation)로 재구성하여, LLMs가 지식 충돌 해결을 위해 내부 활성화 (internal activations)를 적응적으로 조절할 수 있도록 하는 새로운 프레임워크인 SHIFT를 소개합니다. 기술적으로, 우리의 SHIFT는 LLMs에 경량 게이트 모듈을 장착하며, 백본 모델 (backbone model)을 동결한 상태에서 0.01% 미만의 학습 가능한 파라미터를 최적화합니다. 생성 과정 동안, 게이트 모듈은 모델의 내부 표현 (internal representations)을 조정하여 문맥적 지식과 파라미터 지식을 적응적으로 활용하도록 합니다. 6개의 데이터셋에 대한 광범위한 실험을 통해 다양한 경쟁 베이스라인 (baselines)과 비교하여 SHIFT의 효과를 검증했습니다. 모든 데이터셋과 코드는 https://github.com/OpenBMB/SHIFT 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기