arXiv논문2026. 05. 26. 12:49

범용 활성화 버벌라이저 (Universal Activation Verbalizer): 교차 모델 활성화 설명을 위한 통합 프레임워크

요약

이질적인 모델들의 은닉 표현을 자연어로 설명하기 위한 통합 프레임워크인 UAV를 제안합니다. 공유 디코더와 경량 어댑터를 활용하여 모델 간 경계를 넘나드는 교차 모델 활성화 설명을 가능하게 합니다.

핵심 포인트

공유 디코더를 통한 교차 모델 활성화 설명 프레임워크 제안
경량 어댑터와 LoRA를 활용한 효율적인 어댑터 전이 지원
분류, 사실 검색, 요약 작업에서 강력한 성능 입증
어댑터가 활성화 기반의 사실적·의미적 정보를 제공함을 확인

활성화 버벌라이제이션 (Activation verbalization)은 은닉 표현 (hidden representations)을 자연어로 설명하지만, 기존 방식들은 대부분 각 모델이 자신의 활성화 (activations)만을 설명하는 자기 설명 (self-explanation) 방식에 국한되어 있습니다. 우리는 이질적인 기여자 모델 (donor models)의 활성화를 설명하기 위해 공유 디코더 (shared decoder)를 사용하는 프레임워크인 범용 활성화 버벌라이저 (Universal Activation Verbalizer, UAV)를 소개합니다. UAV는 기여자 활성화를 디코더의 임베딩 공간 (embedding space) 내 소프트 토큰 (soft tokens)으로 변환하는 경량 어댑터 (lightweight adapter)를 학습하며, 다른 기여자를 위해 새로운 어댑터만을 학습하면서 동결된 디코더 측 LoRA (Low-Rank Adaptation)를 재사용함으로써 어댑터 전용 전이 (adapter-only transfer)를 추가로 지원합니다. 분류 (classification), 사실 검색 (fact retrieval), 핵심 요약 (gist summarization) 전반에 걸쳐 UAV는 강력한 자기 설명 베이스라인 (self-explanation baselines)과 경쟁할 만한 성능을 유지하면서도, 모델 제품군 및 규모를 넘나드는 교차 모델 버벌라이제이션 (cross-model verbalization)을 가능하게 합니다. 절제 연구 (Ablations) 결과, 디코더 측 튜닝 (decoder-side tuning)은 주로 작업 동작 (task behavior)을 개선하는 반면, 어댑터는 충실한 설명 (faithful explanations)에 필요한 활성화에 기반한 사실적 및 의미적 정보 (activation-grounded factual and semantic information)를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

범용 활성화 버벌라이저 (Universal Activation Verbalizer): 교차 모델 활성화 설명을 위한 통합 프레임워크

요약

핵심 포인트

댓글