에너지 보정(Energy Calibration)을 통한 멀티 어댑터 표현 개입 (Multi-Adapter Representation
요약
모델 가중치를 수정하지 않고 LLM을 정렬하는 MARI 기법을 제안합니다. 에너지 보정 기반의 멀티 어댑터와 게이팅 모듈을 통해 샘플별로 최적화된 개입 방향과 강도를 결정하여 정렬 성능과 일반 능력을 동시에 향상시킵니다.
핵심 포인트
- 가중치 수정 없는 표현 개입(Representation Intervention) 패러다임 활용
- 샘플별 적응적 개입을 위한 경쟁적 멀티 어댑터 메커니즘 도입
- 에너지 기반 게이팅 모듈로 개입 가능 입력 구별
- 정렬 성능 향상과 동시에 MMLU 등 일반 능력 유지
표현 개입 (Representation intervention)은 모델의 가중치 (weights)를 수정하지 않고도 대규모 언어 모델 (LLM)을 원하는 동작에 맞게 정렬 (aligning)할 수 있는 유망한 패러다임으로 부상했습니다. 기존 방법들은 일반적으로 모든 입력에 대해 고정된 개입을 균일하게 적용합니다. 그러나 우리는 적절한 개입 방향 (intervention direction)과 강도 (strength)가 샘플마다 상당히 다르며, 이러한 무차별적인 개입이 무해한 (benign) 입력에 대한 일반적인 능력의 저하를 초래한다는 것을 발견했습니다. 이러한 문제를 해결하기 위해, 우리는 에너지 보정 (Energy Calibration)을 통한 멀티 어댑터 표현 개입 (Multi-Adapter Representation Interventions, MARI)을 제안합니다. 구체적으로, 우리는 특화된 전문가 (experts)가 비선형 교정 패턴 (non-linear correction patterns)을 포착하고 서로 다른 샘플에 대해 적절한 개입 방향과 강도를 적응적으로 결정하는 경쟁적 멀티 어댑터 (competitive multi-adapter) 메커니즘을 도입합니다. 나아가, 우리는 내부 전파 역학 (internal propagation dynamics)을 활용하여 개입이 적용 가능한 입력을 구별하는 에너지 기반 게이팅 모듈 (energy-based gating module)을 설계합니다. 다양한 모델 제품군과 파라미터 규모에 걸친 광범위한 실험을 통해 MARI가 최첨단 (state-of-the-art) 정렬 성능을 달성함을 입증했습니다. 우리의 방법은 TruthfulQA, BBQ 및 안전성 벤치마크 (safety benchmarks)에서의 성능을 크게 향상시키는 동시에, MMLU 및 ARC와 같은 작업에서의 일반적인 능력을 유지하거나 심지어 향상시킵니다. 우리의 코드는 https://github.com/V1centNevwake/MARI 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기