
네이티브 멀티모달 (Native Multimodal) AI의 첫 번째 공식 로드맵 발표
요약
Tencent Youtu Lab이 네이티브 멀티모달 AI의 첫 번째 공식 로드맵을 발표했습니다. 기존의 후기 결합 방식에서 벗어나 데이터, 학습, 추론 전반을 아우르는 네이티브 아키텍처로의 전환을 제안합니다.
핵심 포인트
- 후기 결합(late-fusion)에서 네이티브 아키텍처로의 전환 공식화
- 데이터, 학습, 추론, 평가 전반을 아우르는 M2T, M2G, M2M 로드맵 제시
- WBench를 통한 20개 비디오 월드 모델 벤치마킹 수행
- 품질, 제어, 물리 측면에서 압도적인 단일 모델은 아직 부재함
네이티브 멀티모달 (Native Multimodal) AI가 드디어 첫 번째의 제대로 된 로드맵을 갖게 되었습니다.
Tencent Youtu Lab은 접합된 후기 결합 (late-fusion) 파이프라인에서 네이티브 탄생 (born-native) 아키텍처로의 전환을 공식화합니다.
이 로드맵은 데이터, 학습 (training), 추론 (inference), 그리고 평가 (evaluation) 전반에 걸쳐 M2T, M2G, M2M을 아우릅니다.
논문 (Paper):
https://huggingface.co/papers/2605.25
343
…
분류 체계 탐색기 (Taxonomy explorer):
https://nmm-roadmap.github.io
Awesome NMM 리스트:
https://github.com/NMM-Roadmap/Awesome-NMM-List
…
WBench는 20개의 비디오 월드 모델 (video world models)을 벤치마킹합니다.
289개의 케이스와 1,058회의 턴 (turns)으로 구성된 포괄적인 멀티턴 (multi-turn) 평가를 수행합니다.
5개 차원에 걸친 22개의 지표 (metrics)를 통해 핵심적인 발견을 제시합니다.
품질 (quality), 제어 (control), 그리고 물리 (physics) 측면 모두에서 압도적인 단일 모델은 존재하지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기