NVIDIA Llama Nemotron Nano VLM을 Hugging Face Hub에 환영합니다

NVIDIA Llama Nemotron Nano VL 은 문서 처리를 위한 지능형 문서 처리 (IDP) 와 광학 문자 인식 (OCR) 의 경계를 확장하기 위해 설계된 최신 NVIDIA Nemotron 모델 가족의 추가입니다. 이 모델은 높은 정확도, 낮은 모델 푸트프린트, 그리고 다중 모달 (multimodal) 능력을 갖추고 있어 복잡한 문서에서 정보를 원활하게 추출하고 이해할 수 있습니다.

이 모델은 PDF, 이미지, 표, 차트, 공식, 다이어그램을 포함한 다양한 시각적 요소를 처리할 수 있으며, 금융, 의료, 법률, 정부 등 다양한 산업의 문서 워크플로우 자동화에 이상적인 솔루션입니다. OCRBench v2 벤치마크에서 탁월한 정확도를 보여주며, 실제 세계의 기업 환경에서 현재 최전방 VLM 보다 더 나은 성능을 발휘합니다.

텍스트 인식 (Text Recognition): 이 모델은 지폐 처리와 같은 실제 세계 OCR 작업에서 높은 정확도로 텍스트를 탐지하고 추출하는 데 능숙합니다.

요소 파싱 (Element Parsing): 표, 차트, 이미지와 같은 복잡한 문서 이해에 필수적인 중요한 문서 요소를 정확하게 식별하고 추출할 수 있습니다.

표 추출 (Table Extraction): 이 모델은 문서에서 표 형 데이터를 추출하는 데 매우 정확하며, 재무제표와 유사한 사용 사례에 적합합니다.

그라운드링 (Grounding): 쿼리와 출력 모두를 통해 경계 박스를 통한 그라운드링을 지원하여 모델 응답의 해석 가능성을 향상시킵니다.

Llama Nemotron Nano VL 은 Llama-3.1-8B-Instruct 과 C-RADIOv2-VLM-H 를 기반으로 합니다. C-RADIO 는 시각적 특징 추출을 위한 백본으로, 복잡한 시각적 요소를 포함하는 문서의 고해상도 처리를 가능하게 하는 핵심 시각 이해 구성 요소입니다. 이 기술은 이미지, 다이어그램, 차트 및 표와 같은 시각적 요소를 포함하는 복잡한 문서를 처리할 수 있는 모델의 능력을 뒷받침합니다.

C-RADIO 는 다중 해상도 데이터를 사용하여 여러 디스틸레이션 기법을 통해 학습되었습니다. 일반화를 개선하기 위해 훈련 중에는 가중치에 곱셈 노이즈가 적용되었습니다.

Llama Nemotron VL 은 고해상도 입력을 지원하면서도 공간적 연속성을 희생하지 않도록 인코딩된 패치 기능을 동적으로 집계하는 설계 방식을 추가로 채택했습니다. 이 전략은 임의의 aspect ratio 를 가진 문서 처리를 효율적으로 수행하면서 지역 세부 사항과 전역 컨텍스트를 모두 보존합니다. 이는 계산 효율성이나 커버리지를 희생하지 않고 밀집된 시각적 콘텐츠 (예: 작은 글꼴, 멀티 컬럼 레이아웃, 복잡한 차트) 의 세밀한 분석을 가능하게 합니다. 고해상도 타일링의 혁신 덕분에 모델은 정보 보존이 더 잘 되고 왜곡이 줄어들기도 합니다.

이 강력한 비전 기반을 Llama-3.1 8B LLM 에 부여함으로써, Llama Nemotron Nano VL 은 문서 파싱 및 해석에서 압도적인 정확도를 제공합니다.

Llama Nemotron Nano VL 은 NVIDIA 의 VLM 기반 OCR 솔루션인 NeMo Retriever Parse 와 함께 여러 OSS 데이터셋을 사용하여 학습되었습니다. 이는 텍스트 및 표 파싱, 그리고 그라운딩 (grounding) 능력을 제공하여 Llama Nemotron Nano VL 을 문서 이해 작업에서 산업계 최고 수준으로 수행할 수 있게 합니다. 이 OCR 솔루션 훈련에 사용된 합성 표 추출 데이터셋도 Llama Nemotron Nano VL 8B VLM 훈련에 사용되어 더 최적화된 표 이해 및 추출을 가능하게 했습니다.

Llama Nemotron Nano VL 은 텍스트 인식 및 시각적 추론 작업에서 압도적인 성능을 발휘하며, 고급 차트 및 다이어그램 이해 능력을 보여줍니다. Llama Nemotron Nano VL 은 정규화 공간에서 경계 박스 좌표를 예측하여 그라운딩 같은 작업과 텍스트 지시 (text-referring) 를 가능하게 합니다.

이 강력한 성능은 고품질의 도메인 데이터와 문서 유형, 언어, 레이아웃에 걸친 다양한 훈련 분포에 의해 뒷받침됩니다. 선택적인 큐레이션, 타겟팅된 증강, 그리고 작업 의도를 명확히 하고 모호성을 줄이는 포맷팅 기법 등을 통해 도전적인 사용 사례를 커버하는 강력한 데이터 전략이 모델의 현실 세계 응용 프로그램에 효과적으로 일반화되도록 보장합니다.

Llama Nemotron Nano VL 은 2 단계 훈련 체제 (Pre-training 및 Supervised Fine-Tuning (SFT)) 를 거칩니다. 초기 Pre-training 단계는 언어 및 비전 도메인 간의 크로스 모달 정렬을 달성하는 데 중점을 둡니다. 이는 Multi-Layer Perceptron (MLP) 커넥터의 훈련을 통해 이루어지며, 이는 두 모달리티 간의 인터페이스 역할을 합니다.

훈련 과정에서는 Llama Nemotron Nano VL 은 포괄적이고 다양한 데이터셋 컬렉션을 활용합니다. 이 집계된 데이터셋은 ~1.5M 샘플로 구성되며, 공개적으로 이용 가능한, 합성적으로 생성된, 그리고 내부적으로 큐레이션된 데이터셋을 포함합니다. Pre-training 단계에 사용된 데이터셋의 요약은 Figure 1 에서 제시됩니다.

Supervised Fine-Tuning 단계에서는 Llama-Nemotron-Nano-VL 은 합성, 공개, 그리고 내부적으로 큐레이션된 데이터셋의 조합에 대해 엔드 투 엔드 (end-to-end) 훈련됩니다. 데이터는 OCR, 텍스트 그라운딩, 표 파싱, 일반적인 문서 기반 VQA 를 포함한 광범위한 작업 스펙트럼을 포함합니다.

Llama Nemotron Nano VL 의 문서 이해 능력은 주로 OCR(문자 인식) 에 중점을 둔 SFT(유도 학습) 데이터 블렌드 (blend) 에 기인합니다. 단순 OCR 을 넘어, 많은 데이터셋은 읽기 순서를 예측하거나 마크다운 포맷팅과 함께 캡션, 제목, 섹션 헤더와 같은 의미론적 클래스 및 개별 텍스트 블록의 경계 박스를 재구성하는 등의 작업을 포함합니다. 또한 모델은 LaTeX 형식의 수식을 파싱하고, 프롬프트에 따라 LaTeX, HTML 또는 마크다운 형식으로 표를 추출하도록 훈련됩니다.

다양한 도메인에서 견고성을 확보하기 위해, 우리는 문서 이미지에 아핀 (affine) 및 광학적 변형 (photometric augmentations) 을 적용합니다. 표와 차트 파싱 성능을 더 개선하기 위해, 전 페이지 문서에 내장된 표와 차트를 데이터셋 간에 교환하는 기능을 활성화했습니다. 이는 모델이 다양한 문서 레이아웃과 구조를 처리할 수 있게 합니다.

내부 생성된 데이터셋의 상당 부분은 Nemo Retriever Parse 훈련 데이터를 기반으로 합니다. 여기에는 NVPDFTex (아카이브 문서 컬렉션으로, 읽기 순서로 포맷팅된 텍스트, 경계 박스 및 의미론적 클래스, LaTeX 표와 방정식을 포함하는 참값 레이블) 와 인간 주석가가 라벨링한 Common Crawl pdfs, 마크다운 포맷팅과 표가 포함된 위키백과 렌더링 텍스트, 그리고 표 파싱 능력과 밀집 OCR 을 개선하기 위한 여러 합성 데이터셋이 포함됩니다. 또한 훈련 블렌드는 DocLayNet, FinTabNet 및 PubTables-1M 과 같은 공개적으로 이용 가능한 데이터셋도 포함되어 있으며, 우리는 참값 레이블을 정교화했습니다.

아래 Figure 2 는 훈련 데이터의 작업 분포를 보여줍니다. 이를 통해 볼 수 있듯이, 훈련 샘플의 상당 부분은 OCR, 그라운딩 및 표 파싱, 그리고 OCR-근접 VQA(시각적 질문 답변) 작업을 포함합니다.

Llama Nemotron Nano VL 은 NVIDIA Megatron 을 사용하여 훈련되었으며, NVIDIA Transformer Engine 의 효율적인 Transformer 구현을 사용합니다. 멀티모달 데이터 로딩 (dataloader) 에는 Megatron Energon 을 사용합니다. 우리는 커스텀 훈련을 위한 VLMs(비전-언어 모델) 을 가능하게 하는 예제 Megatron 훈련 및 추론 스크립트, 하이퍼파라미터 및 기타 지침을 제공합니다.

출력이 필요로 하는 대로 정밀하게 포맷팅되도록 보장하기 위해, 우리는 프롬프트 내에 상세한 지시사항 (detailed instructions) 을 포함하는 것을 권장합니다. 아래에 다양한 작업에 대해 이것이 어떻게 작동하는지 보여주는 몇 가지 예시를 제공했습니다:

읽기 순서로 이 문서를 파싱하여 mathpix 마크다운으로 변환하고 LaTeX 방정식 및 표를 포함하세요. 각 블록의 경계 박스와 해당 카테고리를 다음 옵션에서 가져오세요: Bibliography, Caption, Code, Footnote, Formula, List-item, Page-footer, Page-header, Picture, Section-header, TOC (Table-of-Contents), Table, Text, Title. 좌표는 이미지 너비 및 높이에 의해 0 에서 1000 까지 정규화되어야 합니다.
답변 형식은 다음과 같이 되어야 합니다:\n[{{"bbox": [x1, y1, x2, y2], "category": category, "content": text_content}}...].

이미지를 HTML 표로 변환하세요. 출력은 <table> 로 시작하고 </table> 으로 끝나야 합니다. 행/열 수 (rowspan 및 colspan) 가 1 보다 크면 해당 속성을 명시하세요. 다른 속성은 지정하지 마세요. b, br, tr, th, td, sub 및 sup HTML 태그만 사용하세요. 추가 포맷팅은 필요 없습니다.

이미지 내의 표를 HTML 로 변환하고, 그 경계 박스 좌표 (bounding box coordinates) 를 추출합니다. 좌표는 이미지 너비와 높이를 기준으로 0 에서 1000 까지 정규화 (normalized) 되어야 하며, 답변은 다음 형식으로 제공되어야 합니다:
[(x1, y1, x2, y2, html table), (x1, y1, x2, y2, html table)...].

OCRBench v2 는 다양한 실제 문서 유형과 레이아웃을 대상으로 OCR 모델을 평가하기 위해 설계된 고급 벤치마크입니다. 이 벤치마크에는 시각적 텍스트 로컬라이제이션 (visual text localization), 표 파싱 (table parsing), 다이어그램 추론 (diagram reasoning), 키-값 추출 (key-value extraction) 모델의 능력을 엄격하게 평가하기 위한 10,000 개 이상의 인간 검증된 질문 - 답변 쌍이 포함되어 있습니다.

Llama Nemotron Nano VL 은 이 벤치마크에서 다른 VLMs 보다 우위를 점하며, 또한 ChartQA와 AI2D와 같은 벤치마크에서도 강력한 정확도를 달성하여 문서 워크플로우 자동화 (invoice and receipt processing, compliance and identity document analysis, contract and legal document review, healthcare and financial document processing) 를 목표로 하는 기업들에게 매력적인 옵션이 됩니다.

높은 정확도, 강한 레이아웃 인식 추론 (layout aware reasoning), 그리고 단일 GPU 에서의 효율적 배포를 갖춘 Llama Nemotron Nano VL 은 대규모 기업 자동화를 위한 이상적인 선택지입니다.

Llama Nemotron Nano VL 은 다양한 산업에 걸친 여러 문서 처리 작업을 위해 최적화되었습니다. 모델이 뛰어난 몇 가지 주요 사용 사례는 다음과 같습니다:

청구서와 영수증에서 항목, 합계, 날짜 및 기타 주요 데이터 포인트를 추출하여 자동화합니다. 이는 회계, ERP 통합 및 지출 관리에 필수적입니다.
여권, 신분증 및 세무 표에서 구조화된 데이터를 추출하여 규제 준수 및 KYC 프로세스를 수행합니다.
법적 문서에서 주요 조항, 날짜 및 의무 사항을 자동으로 식별합니다.
의료 기록 및 보험서식에서 환자 데이터, 청구 정보 및 정책 세부 정보를 추출합니다.

Llama Nemotron Nano VL 은 개발자에게 대규모 문서 처리 워크플로우 자동화를 위한 도구를 제공합니다. NVIDIA NIM API 를 통해 제공되며 Hugging Face 에서 다운로드할 수 있으며, 여기서 프로덕션용 문서 이해 애플리케이션을 구축할 수 있습니다. 사용자는 또한 NVIDIA NeMo 를 사용하여 모델 자체의 데이터셋으로 미세 조정 (finetune) 할 수도 있습니다.

튜토리얼은 다음 사항을 안내합니다:

Llama Nemotron Nano VL 을 사용하는 환경 설정
청구서와 영수증 처리를 통해 데이터를 자동으로 추출하고 조직화
대규모 문서 워크플로우를 처리하기 위해 솔루션 최적화

Llama Nemotron Nano VL 은 현대 기업에서 요구되는 지능형 문서 처리의 까다로운 요구 사항을 충족하도록 설계된 강력한 멀티모달 모델입니다. 청구서, 계약 또는 준수 문서를 처리하는 경우에도 이 모델은 고성능 문서 이해에 필요한 정확도, 효율성 및 확장성을 제공합니다.

실무 경험을 위해 청구서와 영수증 문서 지능 튜토리얼을 확인하고 Llama Nemotron Nano VL 의 전체 힘을 오늘부터 활용하세요.

NVIDIA Llama Nemotron Nano VLM을 Hugging Face Hub에 환영합니다

요약

핵심 포인트

댓글