
JD, 최초의 오픈 실시간 시각-언어 상호작용 모델 출시
요약
JD가 최초의 오픈 실시간 시각-언어 상호작용 모델인 JoyAI-VL-Interaction을 출시했습니다. 이 모델은 8B 파라미터 규모의 비전 우선 모델로, 지속적인 관찰을 통해 발화 시점을 스스로 결정합니다.
핵심 포인트
- 최초의 오픈 실시간 시각-언어 상호작용 모델 출시
- 8B 규모의 비전 우선(vision-first) 모델 설계
- 지속적 관찰 및 능동적 발화 결정 기능 탑재
- 인간 평가 결과 Doubao 및 Gemini 대비 높은 승률 기록
JD가 최초의 오픈 실시간 시각-언어 상호작용 (vision-language interaction) 모델을 방금 출시했습니다.
JoyAI-VL-Interaction은 지속적으로 관찰하고 언제 말할지를 결정하는 8B 비전 우선 (vision-first) 모델입니다.
인간 평가 (Human evals): Doubao 대비 77.6% 승률, Gemini 대비 87.9% 승률. https://t.co/MNklUJrflZ
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기