HuggingFace헤드라인2026. 05. 07. 08:52

NVIDIA Nemotron 3 Nano Omni: 문서, 오디오 및 비디오 에이전트를 위한 긴 컨텍스트 멀티모달 지능 소개

요약

NVIDIA Nemotron 3 Nano Omni는 문서, 오디오, 비디오를 포함한 다양한 모달리티의 복잡하고 긴 컨텍스트를 이해하도록 설계된 최신 오미모달(omni-modal) 지능 모델입니다. 이 모델은 Mamba-Transformer 혼합 전문가 백본과 전문 인코더들을 결합하여, 장문 문서 분석, 다중 이미지 추론, 자동 음성 인식, 그리고 긴 오디오-비디오 이해 등 광범위한 작업을 최고 수준의 정확도로 수행합니다. 특히 높은 처리량과 효율성을 자랑하며, 에이전트 기반 컴퓨터 사용 및 복잡한 다단계 추론 작업에 최적화되어 있습니다.

핵심 포인트

**오미모달(Omni-modal) 확장:** 텍스트, 이미지, 비디오, 오디오를 통합적으로 처리하는 포괄적인 멀티모달 능력을 갖추었습니다.
**최첨단 성능 및 효율성:** 문서 이해(OCRBenchV2), 음성 인식(VoiceBench), 비디오 이해 등 주요 벤치마크에서 최고 수준의 정확도를 달성했으며, 높은 시스템 처리량과 낮은 추론 속도로 경쟁 우위를 확보했습니다.
**복잡한 컨텍스트 및 추론:** 단순 인식을 넘어, 100페이지 이상의 문서 구조 분석, 다단계 추론, 그리고 혼합 모달리티 증거를 종합하는 고가치 작업에 특화되어 있습니다.
**다양한 활용 사례 지원:** 에이전트 기반 컴퓨터 사용(GUI 해석), 내레이션 포함 비디오 이해, 복잡한 보고서 및 매뉴얼 분석 등 실제 산업 워크플로우 전반을 커버합니다.

NVIDIA Nemotron 3 Nano Omni는 실제 세계 문서 분석, 다중 이미지 추론, 자동 음성 인식, 긴 오디오-비디오 이해, 에이징 컴퓨터 사용, 그리고 일반적 추론을 위해 구축된 새로운 오미모달 (omni-modal) 이해 모델입니다. - Nemotron 멀티모달 라인에서 강력한 비전-언어 시스템으로 더 넓은 텍스트 + 이미지 + 비디오 + 오디오모델로 확장했습니다. - Nemotron 3 Nano Omni는 MMlongbench-Doc, OCRBenchV2와 같은 복잡한 문서 지능 리더보드에서 최고 수준의 정확도를 제공하며, WorldSense 및 DailyOmni와 같은 비디오 및 오디오 리더보드에서도 선도합니다. 오디오 이해에서 VoiceBench 최고 정확도를 달성하고 MediaPerf 에서 가장 비용 효율적인 오픈 비디오 이해 모델로 랭킹합니다. - 엔진 아래에서는 Nemotron 3 하이브리드 Mamba-Transformer 혼합 전문가 (Mixture-of-Experts) 백본과 C-RADIOv4-H비전 인코더, Parakeet-TDT-0.6B-v2오디오 인코더를 결합합니다. - 아키텍처는 세밀한 시각적 세부 사항을 보존하고, 원生的 오디오 이해를 추가하며, 밀집된 이미지, 문서, 비디오 및 혼합 모달리티 추론을 위한 매우 긴 멀티모달 컨텍스트로 확장되도록 설계되었습니다. - 훈련 레시피는 단계적 멀티모달 정렬 및 컨텍스트 확장, 그리고 선호 최적화 및 멀티모달 강화 학습을 사용합니다. - Nemotron 3 Nano Omni 는 다른 대안과 비교하여 멀티모달 사용 사례에서 최대 9 배 높은 처리량과 2.9 배의 단일 스트림 추론 속도를 제공합니다.

HuggingFace 에서 BF16, FP8 및 NVFP4 체크포인트를 다운로드하세요.
모델 아키텍처, 훈련 레시피, 데이터 파이프라인 및 벤치마크에 대한 자세한 정보는 전체 Nemotron 3 Nano Omni 보고서를 읽으세요.

벤치마크 하이라이트
Nemotron Nano V2 VL 을 기반으로 하여, Nemotron 3 Nano Omni 는 상당한 시각적 이득을 제공하며 완전히 새로운 오디오 및 비디오 + 오디오 기능을 추가합니다 - 또한 많은 도메인에서 다른 오픈-웨이트 오미 모델 Qwen3-Omni 와 경쟁합니다.

작업	벤치마크	Nemotron 3 Nano Omni	Nemotron Nano V2 VL	Qwen3-Omni 30B-A3B
문서 이해	OCRBenchV2-En	65.8	61.2	-
MMLongBench-Doc	57.5	38.0	49.5
CharXiv 추론	63.6	41.3	61.1
GUI	ScreenSpot-Pro	57.8	5.5	59.7
OSWorld	47.4	11.0	29.0
비디오 이해	Video-MME	72.2	63.0	70.5
비디오 + 오디오 이해	WorldSense	55.4	-	54.0
DailyOmni	74.1	-	73.6
음성 상호작용	VoiceBench	89.4	-	88.8
ASR	HF Open ASR (낮을수록 좋음)	5.95	-	6.55

효율성 하이라이트
동일한 상호작용성을 가진 다른 오픈 오미 모델과 비교하여, Nemotron 3 Nano Omni 는 다중 문서 사용 사례에 대해 7.4 배 높은 시스템 효율성과 비디오 사용 사례에 대해 9.2 배 높은 시스템 효율성을 제공합니다

Figure 1. 다중 문서 및 비디오 사용 사례의 총 시스템 처리량 (토크/초/사용자) - 고정된 사용자당 상호작용성 임계값으로 지속되는 각 모델

고수준에서, Nemotron 3 Nano Omni 는 다섯 가지 클래스의 워크로드를 목표로 합니다:

이것은 오직 OCR 만이 아닙니다. 모델은 레이아웃, 표, 도표, 공식, 섹션 구조 및 페이지 간 참조에 의존하는 긴, 혼란스러운, 고가치 문서 이해를 위해 포지셔닝됩니다. 계약, 기술 논문, 보고서, 매뉴얼, 다중 페이지 양식 또는 컴플라이언스 팩킷을 생각하세요. 모델은 100 페이지 이상의 문서를 처리할 수 있습니다.

Nemotron 3 Nano Omni 는 다양한 오디오 조건에서 고품질 전사 (transcription) 를 가능하게 하는 강력한 음성 이해 능력을 갖추고 있습니다. 이는 긴 형식의 오디오, 다양한 화자, 억양 및 배경 소음을 처리합니다. 이러한 기능은 더 넓은 워크플로우에 통합되어 구두 콘텐츠를 전사하고 분석하며, 요약, 질문 답변 및 교차 모달성 추론 (cross-modal reasoning) 과 같은 작업에 다른 모달리티와 결합할 수 있습니다.

많은 기업 및 개발자 워크플로우는 혼합 오디오 및 시각적 증거에 의존합니다: 내레이션이 포함된 화면 녹화, 교육 영상, 슬라이드와 함께 있는 회의, 튜토리얼, 제품 데모, 고객 지원 캡처 및 긴 형식 비디오 아카이브. Nemotron 3 Nano Omni 는 이러한 입력을 공동으로 추론하기 위해 설계되었습니다.

Nemotron 3 Nano Omni 모델은 에이전트용 컴퓨터 사용을 위해 특별히 훈련되었으며, 그래픽 사용자 인터페이스 (GUI) 환경의 작업을 보조할 수 있습니다. 그 능력에는 스크린샷 해석, 사용자 인터페이스 상태 모니터링, 화면상의 시각적 요소에 근거한 추론 및 작업 선택 또는 워크플로우 자동화에 대한 도움이 포함됩니다.

모델은 단순한 인식 (perception) 을 넘어 설계되었습니다. 긴 컨텍스트 윈도우, 여러 모달리티 및 구조화되거나 반구조화된 증거를 종합해야 하는 추론 집약적 작업을 수행하는 데 탁월합니다. 텍스트, 이미지, 표 및 기타 입력의 신호를 연결하여 일관되고 잘 뒷받침된 답변을 도출할 수 있는 다단계 추론 (multi-step reasoning), 계산 수행 등을 수행할 수 있습니다.

Nemotron 3 Nano Omni 는 통합 엔코더-프로젝터-디코더 (encoder-projector-decoder) 설계를 사용합니다. 언어 백본은 Nemotron 3 Nano 30B-A3B, C-RADIOv4-H 시각적 엔코더 및 Parakeet-TDT-0.6B-v2 오디오 엔코더와 함께합니다. 모달리티 특화 엔코더는 경량 프로젝터 (projector) 를 통해 LLM 백본에 연결됩니다.

[Figure 2. Model architecture of NVIDIA Nemotron 3 Nano Omni 30B-A3B]

모델 백본은 효율적인 긴 컨텍스트 처리를 위한 23 Mamba 선택적 상태 공간 레이어 (selective state-space layers), 조건부 용량을 위한 128 전문가, top-6 라우팅 및 공유 전문가가 있는 23 MoE 레이어, 그리고 강력한 전역 상호작용 및 표현력을 보존하기 위한 6 그룹 쿼리 attention 레이어를 포함하는 세 가지 핵심 구성요소를 교차 배치합니다.

Nemotron 3 Nano Omni 는 긴 다중 모달리티 컨텍스트에 실용적이며 강력한 추론 성능을 유지하면서 상태 공간 모델, attention 및 MoE 를 통합된 설계로 결합합니다.

시각 측면에서, Nemotron 3 Nano Omni 는 v2 모델에서 사용되던 타일링 전략 (tiling strategy) 을 **원래 아스펙트 비율 (native aspect ratio) 에서 동적 해상도 처리 (dynamic resolution processing)**로 대체했습니다. 각 이미지는 16 x 16 패치 (patches) 의 변수 수를 사용하여 표현될 수 있으며, 이미지당 최소 1,024 개에서 최대 13,312 개의 시각적 패치를 사용할 수 있습니다. 정사각형 이미지에서는 각각 512 x 512 및 1840 x 1840 에 해당합니다.

이 유연성은 OCR 가 무거운 문서, 재무 표, 슬라이드, 연구도, 스크린샷 및 GUI 레이아웃과 같은 고해상도 복잡한 시각적 입력을 처리할 때 필수적입니다. 특히 세밀한 세부 사항과 전체 구조를 함께 이해해야 할 때입니다.

비디오의 경우 Nemotron 3 Nano Omni 는 전용 Conv3D tubelet embedding 경로를 사용합니다. 각 프레임을 독립적으로 임베딩하는 대신, 연속된 프레임 쌍을 ViT 로送入하기 전에 하나의 "tubelet"으로 융합하여 언어 모델이 주의해야 할 비전 토큰의 수를 절반으로 줄입니다. 이를 통해 동일한 토큰 예산으로 프레임 수를 두 배로 늘리거나, 동일한 프레임 수와 동일한 토큰 수를 유지할 수 있습니다.

EVS 는 추론 시간 동안 활성화되는 중요한 기능으로, 비전 인코더 후에서 중복된 비디오 토큰을 제거합니다. 이는 정확도를 유지하면서 지연 시간을 줄이고 처리량을 향상시킵니다. 비디오의 첫 번째 프레임은 완전히 보존되며, 이후 각 프레임마다 EVS 는 비디오가 변경되는 "동적" 토큰을 유지하고 이전 프레임과 비교하여 변화가 없는 "정적" 토큰을 제거합니다. 이를 Conv3D 와 결합하여 압축 효율성을 극대화합니다: Conv3D 는 프레임 쌍의 토큰을 하나로 융합하고, EVS 는 중복된 정적 정보를 제거합니다.

오디오 측면은 Parakeet-TDT-0.6B-v2 로 구동되며, 백본과 자체 2 레이어 MLP 프로젝터로 연결됩니다. 오디오는 16 kHz 샘플링되며, 모델은 최대 1,200 초 (20 분) 입력으로 학습되었으며 LLM 의 맥락 길이는 5 시간 이상을 지원합니다.

이것은 전통적인 VLM 파이프라인에서 벗어나 공유 멀티모달 시퀀스 내에서 원生的 오디오 처리를 가능하게 하여 오디오, 비전, 텍스트 토큰을 함께 모델링할 수 있게 하는 전환입니다. 이는 내러티브 스크린 녹화, 음성으로 시각적 의미가 바뀌는 비디오 Q&A, 장시간 교육 또는 회의 콘텐츠, 시간 기반 멀티모달 추론이 필요한 작업 등 중요한 시나리오에 필수적입니다.

각 인코더는 경량 2 레이어 MLP 프로젝터 로 LLM 과 연결되어 인코더 특징을 공유 임베딩 공간으로 매핑합니다. 투영된 후에는 비전, 오디오, 텍스트 토큰이 교차하여 함께 처리됩니다.

이 설계는 전체 시스템의 모듈성을 유지하면서도 백본 자체에서 진정한 크로스모달 추론을 가능하게 합니다.

SFT 단계는 NVIDIA H100 에서 훈련되며, 단계에 따라 32~128 노드로 확장됩니다. 스택은 Megatron-LM, Transformer Engine, Megatron Energon 을 사용하며, 텐서 병렬성, 전문가 병렬성, 시퀀스 병렬성, 긴 맥락 단계를 위한 컨텍스트 병렬성, 온라인 시퀀스 패킹, 선택적 활성화 재계산을 포함합니다.

SFT 후 강화 학습은 NeMo-RL 및 NeMo Gym 을 사용하며 Megatron 백엔드를 사용합니다. RL 인프라는 B200 과 H100 클러스터를横跨하는 Ray 기반 분산 설정을 사용했으며, 멀티모달 중복 제거를 통해 반복된 롤아웃이 이미지, 비디오, 오디오 메모리를 증폭하지 않도록 합니다.

우리는 훈련 코드의 상당 부분을 오픈소스로 공개합니다.

우리는 Nemotron 3 Nano Omni 에서 멀티 환경 텍스트 및 오미 훈련을 소개합니다. 우리 텍스트 RL 훈련 단계는 Nemo-Gym 의 다양한 환경에서 이루어지며, 모델이 도구 호출, 코드 작성, 다중 부분 계획 등의 행동 시퀀스를 수행하여 검증 가능한 기준을 만족할 수 있는 능력을 평가합니다.

Omni RL 는 모델이 이미지, 비디오, 오디오, 텍스트를 통합된 프레임워크 내에서 추론할 수 있도록 훈련합니다. 이는 단일 모달리티에서 완전히 멀티모달 시나리오까지 다양한 작업을 포함합니다. 다채로운 검증자 스위트는 선택식 문제, 수학, GUI 지향, ASR 등 다양한 형식의 출력을 평가하며, 증거가 부족할 때 환각이 아닌 자제를 가르치기 위해 의도적으로 답할 수 없는 경우를 포함합니다.

Nemotron 3 Nano Omni 는 멀티모달에 걸쳐 고품질의 추론을 강조하는 향상된 데이터셋으로 훈련되었습니다. 우리는 공개 데이터셋이 제한된 복잡한 추론 시나리오에서 작업 범위를 크게 확장하고 합성 데이터를 도입했습니다. 이를 지원하기 위해 우리는 확장 가능한 합성 데이터 생성을 위한 작업별 다단계 파이프라인을 구축했습니다.

예를 들어, NeMo Data Designer 를 사용하여 실제 세계의 PDF 문서 대규모 코퍼스에서 약 11.4M 개의 합성 QA 쌍 (~45B 토큰) 을 생성했습니다. 이 데이터셋은 포스트 훈련 동안 장기 문맥 문서 추론을 강화하고 MMLongBench-Doc 의 전체 정확도에서 2.19× 개선 성능을 제공합니다.

우리는 Data Designer 개발자 노트에서 실패 분석과 주요 교훈을 포함한 전체 파이프라인 진화를 상세히 설명합니다. 이 노트에는 자체 문서 이해 데이터셋 구축의 시작점으로 사용할 수 있는 9 개의 실행 가능한 파이프라인 레시피도 포함되어 있습니다.

Nemotron 3 Nano Omni 는 재무 보고서, 학술 논문, 제품 매뉴얼 등 긴 문서를 분석하고 추론할 수 있습니다. 다음 예시는 100 페이지 이상의 문서에서 재무 지표를 검색하여 다른 지표를 계산합니다:

Figure 3: MMLongBench-Doc 벤치마크의 스타일화된 예시

모델은 다음과 같이 질문을 답변하도록 프롬프트되었습니다:

주어진 모든 이미지에서 정보를 추출한 후 단어나 구문으로 질문에 답하세요. 이미지에서 유도할 수 없는 경우 'Not answerable' 을 반환하세요.

모델은 긴 문맥 검색, 구조화된 추출, 표/차트 읽기 및 멀티 페이지 추론을 한 번에 수행할 수 있습니다.

Nemotron-3 Nano Omni 는 로컬에서 특정 장면과 전 비디오 전체를 포함하여 오디오-비주얼 분석을 동시에 수행합니다. 이는 오디오에서 특정 주제가 언급될 때 정확히 표시된 시각적 요소를 식별하는 등 교차 모달 추론이 필요한 복잡한 질문에 답할 수 있는 능력을 제공합니다.

비디오

질문

비디오를 보고 내레이션을 듣습니다.
1. 비디오에서 화염을 피우는 구조물은 무엇이며, 리노베이션 프로젝트에 얼마나 많은 돈이 지출되었나요?
2. 증인 증언자가 경험을 서술할 때 표시되는 시각적 요소를 간략히 설명하세요.

답변

1. 화염을 피우는 구조물은 Notre Dame Cathedral 로, 거의 7 백만 달러의 리노베이션 프로젝트가 진행 중이었습니다.
2. 증인 증언자가 경험을 서술할 때 표시되는 시각적 요소는 불에 휩싸인 교회와 짙은 연기가, 타오르는 지붕을 둘러싼 작업대, 소방관이 계단을 사용하여 물을 분사하고, 강변에서 지켜보는 사람들, 파리 스카이라인과 함께 타오르는 구조물의 뷰입니다.

Nemotron 3 Omni 는 사용자 의도를 추론하고 GUI 요소를 분석하며 작업을 수행하기 위해 액션 실행을 수행할 수 있는 에이전트 컴퓨터 사용 시스템에 통합될 수 있습니다.

모델은 다음 시스템 프롬프트가 있는 웹 환경에 접근 권한이 부여되었습니다:

AI 자동 생성 콘텐츠

원문 바로가기

NVIDIA Nemotron 3 Nano Omni: 문서, 오디오 및 비디오 에이전트를 위한 긴 컨텍스트 멀티모달 지능 소개

요약

핵심 포인트

댓글