본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 28. 14:42

NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (Vision-Language Models)

요약

NEO-ov는 외부 인코더나 어댑터 없이 픽셀-단어 대응 관계를 엔드투엔드로 학습하는 네이티브 파운데이션 모델입니다. 이미지, 비디오, 공간 지능을 통합한 '원-비전' 아키텍처를 통해 강력한 세밀한 인지 능력을 제공합니다.

핵심 포인트

  • 외부 인코더 및 어댑터가 없는 엔드투엔드 학습 방식
  • 이미지, 비디오, 공간 지능의 통합된 처리
  • 대규모 확장 시 경쟁력을 갖춘 원-비전 아키텍처
  • 강력하고 세밀한 시각적 인지 능력 보유

NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (Vision-Language Models)

이 네이티브 파운데이션 모델 (Native Foundation Model)은 픽셀-단어 대응 관계 (Pixel-to-word correspondence)를 엔드투엔드 (End-to-end)로 학습하여, 외부 인코더 (Encoder)나 어댑터 (Adapter) 없이 이미지, 비디오, 그리고 공간 지능 (Spatial Intelligence)을 통합합니다.

NEO-ov는 네이티브 "원-비전 (One-vision)" 아키텍처가 대규모 확장 시 경쟁력이 있으며, 강력한 세밀한 인지 (Fine-grained perception) 능력을 갖추고 있음을 보여줍니다.

논문 (Paper):
https://huggingface.co/papers/2605.28
820

모델 체크포인트 (Model checkpoints):
https://huggingface.co/collections/Paranioar/neo1-5

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0