arXiv논문2026. 06. 30. 12:30

DAIN: 효율적이고 협력적인 멀티모달 추론을 위한 동적 에이전트 기반 상호작용 네트워크

요약

DAIN은 멀티모달 융합을 동적인 다중 에이전트 협력 프로세스로 재개념화한 새로운 프레임워크입니다. 메타 컨트롤러를 통해 에이전트의 희소 활성화와 통신을 조율하여 정확도와 효율성을 동시에 최적화합니다.

핵심 포인트

동적 에이전트 기반 상호작용 네트워크(DAIN) 제안
메타 컨트롤러를 통한 에이전트의 희소 활성화 및 통신 조율
다양한 벤치마크에서 SOTA 성능 및 정확도 향상 입증
계산 효율성 유지 및 문맥 의존적 해석 가능성 제공

현재의 멀티모달 융합 (multimodal fusion) 방식, 특히 정적 전문가 혼합 (Mixture-of-Experts, MoE) 아키텍처에 기반한 방식들은 복잡한 실제 응용 분야에서 요구되는 적응적이고 효율적인 협력적 추론을 제공하는 데 종종 어려움을 겪습니다. 우리는 멀티모달 융합을 동적인 다중 에이전트 협력 프로세스로 재개념화한 동적 에이전트 기반 상호작용 네트워크 (Dynamic Agent-based Interaction Network, DAIN)를 소개합니다. DAIN은 문맥 인식형 메타 컨트롤러 (Meta-Controller)를 채택하여 특화된 상호작용 에이전트들의 희소 활성화 (sparse activation)를 동적으로 스케줄링하고, 합의 형성을 위한 압축된 에이전트 간 통신을 조율합니다. 이 프레임워크는 희소 활성화 및 통신 정규화 (communication regularization)를 통해 작업 정확도, 에이전트 전문화, 그리고 운영 효율성을 공동으로 최적화하는 다중 목적 손실 함수 (multi-objective loss function)에 의해 가이드됩니다. ADNI, MIMIC-IV, MM-IMDB, CMU-MOSI, ENRICO의 다섯 가지 다양한 벤치마크에 걸친 종합적인 평가를 통해 DAIN은 ADNI에서 2.6%의 정확도 향상을 포함한 상당한 성능 개선을 달성하며 새로운 최첨단 (state-of-the-art) 기술임을 입증했습니다. 절제 연구 (Ablation studies)는 동적 스케줄링과 에이전트 통신 모두의 결정적인 역할을 검증합니다. 또한, DAIN은 샘플별 희소 에이전트 활성화를 통해 계산 효율성을 유지하면서도, 문맥 의존적인 에이전트 역할과 협업 패턴을 드러냄으로써 향상된 해석 가능성 (interpretability)을 제공합니다. 우리의 연구는 멀티모달 추론을 위한 동적, 에이전트 기반 패러다임의 가능성을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

DAIN: 효율적이고 협력적인 멀티모달 추론을 위한 동적 에이전트 기반 상호작용 네트워크

요약

핵심 포인트

댓글