
AMVL은 멀티모달 LLM에서 안정적인 연속적 추론을 가능하게 합니다
요약
AMVL은 멀티모달 LLM에서 안정적인 연속적 추론을 가능하게 하는 새로운 방법론입니다. 비대칭 이중 KL 손실을 통해 잠재적 추론을 정렬함으로써 정답 유출을 방지하고 성능을 크게 향상시킵니다.
핵심 포인트
- 비대칭 이중 KL 손실을 통한 잠재적 추론 정렬
- 텍스트 토큰 압축 대신 잠재적 추론 방식 사용
- 정답 유출(answer leakage) 문제 방지
- BLINK 점수 최대 +32점 향상
AMVL은 사고(thought)를 텍스트 토큰으로 압축하는 대신, 비대칭 이중 KL 손실 (asymmetric dual-KL loss)을 사용하여 학습 및 테스트 시점에 잠재적 추론 (latent reasoning)을 정렬합니다. 이는 정답 유출 (answer leakage)을 방지하고 BLINK 점수를 최대 +32점까지 높입니다. https://t.co/M3m7RXETML
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기