Vision Transformer의 매개변수 효율적 미세 조정을 위한 구조적 하이퍼엣지 적응 (Structured Hyperedge
요약
Vision Transformer의 매개변수 효율적 미세 조정(PEFT)을 위해 토큰 단위가 아닌 하이퍼엣지 공간에서 적응을 수행하는 HyperAdapter를 제안합니다. 하이퍼그래프 기반 아키텍처를 통해 토큰 간의 구조적 관계를 학습함으로써 기존 어댑터 방식보다 뛰어난 성능을 보여줍니다.
핵심 포인트
- 기존 토큰 단위 PEFT의 구조적 관계 간과 문제 해결
- 하이퍼그래프 기반의 HyperAdapter 아키텍처 제안
- 소프트 토큰 라우팅을 통한 구조화된 그룹 적응 가능
- 구조적 추론이 필요한 태스크에서 기존 베이스라인 대비 우수한 성능 입증
매개변수 효율적 미세 조정 (Parameter-efficient fine-tuning, PEFT)은 대규모 사전 학습된 Vision Transformer (ViT)를 다운스트림 태스크 (downstream tasks)에 적응시키면서 매개변수의 아주 작은 부분집합만을 업데이트하는 실용적인 해결책이 되었습니다. 그러나 기존의 어댑터 기반 (adapter-based) 방식들은 각 토큰 (token)에 대해 독립적으로 적응을 수행하며, 이는 토큰의 개선이 고립된 상태로 학습되어야 한다는 것을 암묵적으로 가정합니다. 이러한 토큰 단위 (token-wise) 공식화는 시각적 장면에서 자연스럽게 발생하는 토큰 간의 구조적 관계를 간과하며, 이는 잠재적으로 중복된 업데이트와 공간적으로 일관되지 않은 특징 개선 (feature refinement)으로 이어질 수 있습니다. 본 연구에서는 매개변수 효율적 어댑터의 설계를 재검토하고, 토큰 공간 (token space)이 아닌 하이퍼엣지 공간 (hyperedge space)에서 적응을 수행할 것을 제안합니다. 우리는 소프트 토큰 라우팅 (soft token routing)을 통해 구조화되고 그룹을 인식하는 적응을 가능하게 하는 하이퍼그래프 기반 어댑터 아키텍처인 HyperAdapter를 소개합니다. HyperAdapter는 프로토타입 기반 할당 (prototype-based assignments)을 사용하여 ViT 토큰 위에 소프트 하이퍼그래프 (soft hypergraph)를 구축하고, 토큰 특징을 잠재적 하이퍼엣지 표현 (latent hyperedge representations)으로 집계하며, 하이퍼엣지 수준에서 경량화된 병목 적응 (bottleneck adaptation)을 적용한 뒤, 결과적인 업데이트를 하이퍼그래프 인시던스 구조 (hypergraph incidence structure)를 통해 토큰으로 다시 확산 (diffuse)시킵니다. 이러한 설계는 표준 어댑터의 모듈성 (modularity)과 효율성을 유지하면서 PEFT에 명시적인 구조적 귀납 편향 (structural inductive bias)을 주입합니다. 다양한 시각적 벤치마크에 걸친 광범위한 실험을 통해, 구조적 하이퍼엣지 적응이 유사한 매개변수 예산 하에서 강력한 PEFT 베이스라인 (baselines)들을 일관되게 능가하며, 특히 구조적 추론 (structured reasoning)을 요구하는 태스크에서 두드러진 이득을 보임을 입증했습니다. 우리의 결과는 적응 공간 (adaptation space)의 선택이 ViT의 매개변수 효율적 전이 (parameter-efficient transfer)에 있어 매우 중요하지만 아직 충분히 탐구되지 않은 차원임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기