본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 16. 19:25

JD, 최초의 오픈 실시간 시각-언어 상호작용 모델 출시

요약

JD가 최초의 오픈 실시간 시각-언어 상호작용 모델인 JoyAI-VL-Interaction을 출시했습니다. 이 모델은 8B 파라미터 규모의 비전 우선 모델로, 지속적인 관찰을 통해 발화 시점을 스스로 결정합니다.

핵심 포인트

  • 최초의 오픈 실시간 시각-언어 상호작용 모델 출시
  • 8B 규모의 비전 우선(vision-first) 모델 설계
  • 지속적 관찰 및 능동적 발화 결정 기능 탑재
  • 인간 평가 결과 Doubao 및 Gemini 대비 높은 승률 기록

JD가 최초의 오픈 실시간 시각-언어 상호작용 (vision-language interaction) 모델을 방금 출시했습니다.

JoyAI-VL-Interaction은 지속적으로 관찰하고 언제 말할지를 결정하는 8B 비전 우선 (vision-first) 모델입니다.

인간 평가 (Human evals): Doubao 대비 77.6% 승률, Gemini 대비 87.9% 승률. https://t.co/MNklUJrflZ

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0