NVIDIA, 다국어 추론 데이터셋 v1 출시
요약
NVIDIA는 오픈 생태계 지원을 위해 600만 개의 다국어 추론 데이터셋(Multilingual Reasoning Dataset) v1을 출시했습니다. 이 데이터셋은 프랑스어, 스페인어, 독일어, 이탈리아어, 일본어 등 5개 목표 언어로 번역되었으며, 기존 영어 지식을 보존하면서 사용자 프롬프트와 모델 응답만 번역하는 방식을 채택했습니다. 또한, NVIDIA는 하이브리드 Transformer–Mamba 아키텍처를 적용한 Nemotron Nano 2 9B 모델을 공개하여 높은 처리량과 낮은 비용으로 에지 디바이스에 AI 기능을 제공할 수 있게 했습니다.
핵심 포인트
- 다국어 추론 데이터셋 v1 출시: 프랑스어, 스페인어, 독일어, 이탈리아어, 일본어 등 5개 언어로 확장되어 모델의 글로벌 활용도를 높였습니다.
- Nemotron Nano 2 9B 공개: 하이브리드 Transformer–Mamba 아키텍처를 통해 동일 크기 대비 최대 6배 높은 처리량과 추상 예산 제어를 통한 비용 절감(최대 60%)을 실현했습니다.
- 오픈 생태계 및 투명성 강조: 훈련 데이터, 도구, 최종 모델 가중치를 공개함으로써 오픈 웨이트 모델의 지속적인 개선을 지원합니다.
- 번역 품질 향상 메커니즘 적용: LLM이 기계 번역에 취약한 환각 문제를 방지하기 위해 특정 형식 강제 및 필터링 과정을 거쳤습니다.
NVIDIA 는 오픈 생태계를 지원하기 위해 허용된 데이터셋을 계속 발표하며, 600 만 개의 다국어 추론 데이터셋 (Multilingual Reasoning Dataset) 을 출시했습니다.
최근 Llama Nemotron Super 모델에 사용된 Nemotron Post-Training Dataset v1 의 성공과 올해 초의 Llama Nemotron Post-Training Dataset 발표를 이어받아, 프랑스어, 스페인어, 독일어, 이탈리아어, 일본어 등 5 개 목표 언어로 번역된 추론 데이터셋을 출시하게 되었습니다.
새롭게 출시된 NVIDIA Nemotron Nano 2 9B 는 하이브리드 Transformer–Mamba 아키텍처와 구성 가능한 추상 예산 (thinking budget) 을 통해 가장 높은 정확도와 효율성을 제공하여 에지 (edge) 로 이러한 기능을 가져옵니다. 따라서 실제 요구에 맞게 정확도, 처리량, 비용을 조절할 수 있습니다.
모델 크기: 9B 파라미터
아키텍처: Transformer‑only peers 와 유사한 정확도로 더 높은 처리량을 위한 하이브리드 Transformer–Mamba (Mamba‑2 + 소수의 attention layers)
처리량: 동일 크기의 다른 주요 모델에 비해 최대 6 배 높은 토큰 생성
비용: 추상 예산을 통해 "추상" 토큰 사용량을 제어할 수 있습니다. 추론 비용을 최대 60% 절감할 수 있습니다.
목표: 고객 서비스, 지원 챗봇, 분석 코필로터 및 에지/RTX 배포용 에이전트
이용 가능: 모델 가중치는 Hugging Face 에서 이용 가능하며, build.nvidia.com 의 엔드포인트를 테스트할 수 있으며, NVIDIA NIM 으로 고처리량과 저지연으로 이용 가능합니다.
라이선스: nvidia-open-model-license
이 발표는 모델 개발 및 개선에 대한 지속된 오픈성과 투명성에 대한 우리의 약속을 위한 중요한 진전입니다. 훈련 데이터뿐만 아니라 훈련 도구와 최종 모델 가중치를 공개함으로써, NVIDIA 는 오픈 웨이트 (open-weight) 모델의 지속적인 개선을 지원합니다.
고도로 요약하면, Nemotron Post-Training Dataset V2 는 이전에 출시된 영어 추론 데이터를 5 개의 목표 언어 (프랑스어, 독일어, 이탈리아어, 일본어, 스페인어) 로 번역합니다. 사전 훈련 동안 부여된 영어 지식의 최대한 활용을 위해, 사용자 프롬프트와 모델 응답을 번역하지만 원래 영어 추론 체인을 보존합니다.
WMT 2024 일반 번역 공유 과제 (general translation shared task) 의 결과에 따르면, LLM 은 기계 번역 작업에서 최첨단 결과를 달성하고 있습니다. 그러나 포스트 훈련 데이터의 합성 생성을 위해, 우리의 예비 연구는 다음과 같이 보여줍니다:
- SFT 데이터셋을 번역하는 것보다 일반적인 기계 번역 테스트 세트 (예: FLORES) 를 번역할 때 LLM 은 환각 (hallucinations) 에 더 취약합니다.
- 입력 길이가 증가함에 따라 오픈 소스 LLM 의 번역 품질과 환각 비율은 크게 악화됩니다.
따라서 우리는 높은 번역 품질과 쉬운 환각 감지를 유지하기 위해 여러 메커니즘을 통합했습니다. 요약하면:
- 줄바꿈으로 문장을 나누고 줄별로 번역합니다. 만약 한 줄이 번역 불가능 (예: 탭만 포함) 이거나 코드 블록의 일부라면, 번역되지 않습니다.
- 우리는 "번역된 텍스트를 괄호 〘〙 안에 감싸세요"라는 특정 형식을 강제하고, 이 특수 매칭 괄호를 사용하여 번역을 추출합니다. 다른 예시는 버깅됩니다 (표 1 참조).
- 프롬프트 입력의 번역에 fastText 언어 ID 를 실행하여 목표 외 데이터 포인트를 필터링합니다. 우리는 또 다른 55,567 개의 예시 (모든 다국어 예시의 1.1%) 를 버렸습니다.
표 1: 출력 형식을 강제하여 버린 데이터 비율 (바이트 기준)
| 언어 | 코드 | QA | 수학 |
|---|---|---|---|
| de | 2.28% | 1.11% | 2.47% |
| ... | ... |
벤치마킹 후, 우리는 Qwen2.5-32B-Instruct-AWQ (독일어) 와 Qwen2.5-14B-Instruct (기타 언어) 를 선택하여 번역을 수행했습니다. 이 모델을 선택한 고려 사항은 다음과 같습니다:
- 견고한 번역 품질
- 추론에 단일 A100 GPU 에 맞출 수 있음
- 훈련 데이터의 광범위한 도메ン 커버리지
- 오픈 라이선스 (Apache 2.0)
from datasets import load_dataset
ds = load_dataset("nvidia/Nemotron-Post-Training-Dataset-v2")
👉 데이터셋을 확인하세요: Hugging Face 데이터셋 페이지
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기