MODF-SIR: 사회적 지능 추론을 위한 멀티 에이전트 옴니모달 증류 프레임워크
요약
사회적 지능 추론을 위해 지식 증류를 활용한 경량 멀티 에이전트 옴니모달 프레임워크 MODF-SIR을 제안합니다. 롱테일 이벤트 추출과 TTA, LoRA를 결합하여 모델의 추론 능력을 극대화했습니다.
핵심 포인트
- 지식 증류를 통한 훈련 및 추론 단계 강화
- 롱테일 이벤트의 명시적 텍文本 렌더링으로 정보 손실 방지
- TTA와 LoRA를 통합한 인스턴스 수준의 미세 조정
- 다양한 벤치마크에서 SOTA 성능 달성
우리는 사회적 지능 추론 (social intelligence reasoning)을 위해 특별히 설계된, 경량 멀티모달 거대 언어 모델 (Multimodal Large Language Model, MLLM) 기반의 멀티 에이전트 협업 프레임워크를 제안합니다. 우리 접근 방식의 핵심 특징은 훈련 및 추론 단계 모두가 지식 증류 (knowledge distillation)를 통해 강화된다는 점입니다. 이 아키텍처 내에서 사회적 지능과 관련된 멀티모달 데이터가 정밀하게 국소화됩니다. 또한, 관련 있는 롱테일 이벤트 (long-tail events)를 식별, 추출하여 형식화된 명시적 텍스트로 렌더링합니다. 이러한 형식화 전략은 토큰화 (tokenization) 과정에서 중요한 롱테일 정보가 헤드 이벤트 (head events)나 환경 노이즈에 의해 가려지는 것을 방지합니다. 구체적으로, 우리는 롱테일 이벤트의 추출 및 표현, 사고 사슬 (Chain-of-Thought, CoT) 프롬프팅, 그리고 자기 성찰 (self-reflection)을 포함하는 전체 추론 파이프라인에 걸쳐 테스트 시간 적응 (Test-Time Adaptation, TTA)을 통합합니다. 이 TTA 메커니즘 또한 증류로 강화되었으며, 저차원 적응 (Low-Rank Adaptation, LoRA)을 활용하여 기초 모델을 인스턴스 수준의 추론 (instance-level reasoning)에 대해서만 미세 조정 (fine-tune)합니다. 다양한 벤치마크에서 여러 오픈 소스 및 독점 AI 모델을 대상으로 한 광범위한 평가를 통해 제안된 프레임워크의 효과를 입증했습니다. IntentTrain 데이터의 약 30%를 사용하여 우리는 최첨단 (state-of-the-art) 결과를 달성했습니다. 코드는 https://github.com/eeee-sys/MODF-SIR 에서 확인할 수 있으며, 데모는 https://huggingface.co/spaces/Harry-1234/MODF-SIR 에서, LoRA는 https://huggingface.co/Harry-1234/MODF-SIR 에서, 그리고 라우터 훈련을 위한 데이터셋은 https://huggingface.co/datasets/Harry-1234/IntentRouterTrain 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기