NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (Vision-Language Models)

이 네이티브 파운데이션 모델 (Native Foundation Model)은 픽셀-단어 대응 관계 (Pixel-to-word correspondence)를 엔드투엔드 (End-to-end)로 학습하여, 외부 인코더 (Encoder)나 어댑터 (Adapter) 없이 이미지, 비디오, 그리고 공간 지능 (Spatial Intelligence)을 통합합니다.

NEO-ov는 네이티브 "원-비전 (One-vision)" 아키텍처가 대규모 확장 시 경쟁력이 있으며, 강력한 세밀한 인지 (Fine-grained perception) 능력을 갖추고 있음을 보여줍니다.