Mixture-of-Control: Transformer 기반 모델을 위한 상태 인지 미세 조정 (State-Aware Fine-Tuning)
요약
Transformer 모델의 효율적인 미세 조정을 위한 새로운 프레임워크인 Mixture-of-Control(MoC)을 제안합니다. 기존 상태 기반 미세 조정의 블록 간 정보 교환 한계를 극복하기 위해 로컬 및 글로벌 제어 신호를 적응적으로 통합합니다.
핵심 포인트
- 상태 기반 미세 조정을 통한 파라미터 효율성 및 메모리 절감
- 블록 간 통신을 위한 경량화된 Mixture-of-Experts 메커니즘 도입
- 기존 방식 대비 뛰어난 표현 학습 능력 및 성능 입증
- 계산 오버헤드를 최소화하면서 효율적인 미세 조정 가능
상태 기반 미세 조정 (State-based fine-tuning)은 Transformer를 위한 가중치 기반 적응 (weight-based adaptation)의 강력한 대안으로 부상하였으며, 모델 가중치 대신 경량화된 제어 신호를 상태 (states)로 업데이트함으로써 파라미터 효율성을 유지하면서도 상당한 메모리 절감 효과를 제공합니다. 그러나 기존의 대부분의 상태 기반 방법들은 일반적으로 블록별 (per-block) 제어 업데이트만을 적용하며, 이는 블록 간 정보 교환을 제한하고 표현 적응 (representational adaptation)을 제약합니다. 한편, 블록 간 통신을 가능하게 하는 기존 메커니즘들은 종종 상당한 계산 오버헤드 (computational overhead)를 유발하여 효율적인 미세 조정 (fine-tuning)을 위한 실용성을 떨어뜨립니다. 우리는 표현 학습 (representation learning)을 강화하기 위해 로컬 및 글로벌 제어 신호를 적응적으로 통합하는 경량 미세 조정 프레임워크인 Mixture-of-Control (MoC)를 소개합니다. MoC는 블록 단위의 제어 상태를 희소 전문가 혼합 (sparse mixture-of-experts) 프로세스의 전문가 (experts)로 취급하여, Transformer 블록 간의 효율적인 통신을 가능하게 합니다. 다양한 Transformer 기반 벤치마크에 대한 실증적 결과는 MoC가 유사한 메모리 및 계산 효율성을 유지하면서도 상태 기반 방법들보다 뛰어난 성능을 보임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기