
NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (Vision-Language Models)
요약
NEO-ov는 외부 인코더나 어댑터 없이 픽셀-단어 대응 관계를 엔드투엔드로 학습하는 네이티브 파운데이션 모델입니다. 이미지, 비디오, 공간 지능을 통합한 '원-비전' 아키텍처를 통해 강력한 세밀한 인지 능력을 제공합니다.
핵심 포인트
- 외부 인코더 및 어댑터가 없는 엔드투엔드 학습 방식
- 이미지, 비디오, 공간 지능의 통합된 처리
- 대규모 확장 시 경쟁력을 갖춘 원-비전 아키텍처
- 강력하고 세밀한 시각적 인지 능력 보유
NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (Vision-Language Models)
이 네이티브 파운데이션 모델 (Native Foundation Model)은 픽셀-단어 대응 관계 (Pixel-to-word correspondence)를 엔드투엔드 (End-to-end)로 학습하여, 외부 인코더 (Encoder)나 어댑터 (Adapter) 없이 이미지, 비디오, 그리고 공간 지능 (Spatial Intelligence)을 통합합니다.
NEO-ov는 네이티브 "원-비전 (One-vision)" 아키텍처가 대규모 확장 시 경쟁력이 있으며, 강력한 세밀한 인지 (Fine-grained perception) 능력을 갖추고 있음을 보여줍니다.
논문 (Paper):
https://huggingface.co/papers/2605.28
820
…
모델 체크포인트 (Model checkpoints):
https://huggingface.co/collections/Paranioar/neo1-5
…
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기