Nemotron-Personas-India: 인도에 기반한 주권 AI를 위한 합성 데이터
요약
Nemotron-Personas-India는 인도의 실제 인구 통계, 지리적, 문화적 분포를 반영하여 구축된 최초의 오픈 합성 데이터셋입니다. 이는 서양 중심의 기존 데이터셋이 포착하지 못했던 인도 특유의 다언어 및 다문화적 맥락을 AI 모델 훈련에 제공합니다. 이 데이터셋은 CC BY 4.0 라이선스로 공개되어, 개발자들이 프라이버시 위험 없이 인도의 복잡한 사회를 반영하는 주권(Sovereign) AI 시스템을 구축하고 다양한 지역별 전문 코파일럿 및 다언어 챗봇을 개발할 수 있도록 지원합니다.
핵심 포인트
- 인도 시장에 특화된 최초의 오픈 합성 데이터셋으로, 인도의 복잡한 언어적/문화적 다양성을 포괄적으로 반영했습니다.
- 총 2100만 명 규모의 가상 인물 데이터를 포함하며, 영어, 힌디어(데바나가리), 힌디어(라틴) 등 다중 언어 및 문자를 지원합니다.
- 공식 인구 통계와 노동 통계를 기반으로 하며, 재식별 위험이 없어 규제 준수 및 프라이버시 보호가 용이합니다.
- Nemotron 모델과 같은 오픈 소스 LLM에 통합되어, 인도 현지 사용 사례(예: 지역 전문 코파일럿)를 위한 AI 시스템 튜닝을 가능하게 합니다.
실제 세계 분포에 기반한 인도적 인물에 대한 복합 AI 접근법
인도는 인터넷 사용자 7 억 명 이상, 수많은 언어, 빠르게 성장하는 개발자 생태계를 가진 세계 최대의 AI 기회 중 하나입니다. 그러나 대부분의 오픈 데이터셋은 서양 규범과 영어 만의 맥락을 반영하여 인도라는 다언어, 다스크립트 환경에서 AI 채택을 제한하는 데이터 격차를 만들어냅니다.
오늘 우리는 Nemotron-Personas-India를 출시합니다. 이는 인도의 실제 인구 통계, 지리적, 문화적 분포에 맞춰진 첫 번째 오픈 합성 데이터셋으로 인도인적 인물입니다. CC BY 4.0 라이선스 하에 이 데이터셋은 민감한 개인 데이터를 의존하지 않고 인도 사회를 반영하는 AI 시스템을 확장하기 위한 프라이버시 보호, 규제 준비 기반을 제공합니다.
NVIDIA 의 기업급 합성 데이터 생성 마이크로서비스인 NeMo Data Designer 를 사용하여 구축된 Nemotron-Personas-India 는 우리의 주권 AI 데이터셋 글로벌 컬렉션을 확장합니다. 이는 미국의 성공과 일본 인물 데이터셋의 성공에 기반하며 인도라는 문화적으로 풍부한 지형에专门为 설계된 새로운 기능을 포함합니다.
이 데이터셋은 Nemotron 모델 및 기타 오픈 소스 LLM 과 원활하게 통합되어 인도의 사용 사례를 위한 AI 시스템을 쉽게 튜닝할 수 있습니다 — 다언어 챗봇부터 문화적 기반 전문 코피포트까지.
이 릴리스는 우리가 이전에 출시한 힌디어 평가 데이터셋 시리즈와 보완합니다 — ChatRAG-Hi, IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, BFCL-Hi 를 포함하여 합성 데이터 생성부터 인도 AI 시스템의 엄격한 모델 평가까지의 완전한 파이프라인을 지원합니다.
총 2100 만 인물의 인물(300 만 기록 × 각 7 인물)
다언어 지원: 영어와 힌디어, 데바나가리 및 라틴 문자 모두
각 기록당 27 필드: 공식 인구 조사 및 노동 통계에 기반한 인물 특성 + 컨텍스트 속성, 나이, 성별, 교육, 직업, 주, 구 등 포함
총 77 억 토큰,其中包括 29 억 인물의 토큰
- 영어: 총 10 억 토큰, 3 억 9400 만 인물의 토큰
- 힌디어 (데바나가리): 총 47 억 토큰, 18 억 인물의 토큰
- 힌디어 (라틴): 총 20 억 토큰, 7 억 4600 만 인물의 토큰
~560 만 개의 고유 이름, 인도라는 광대한 언어적 다양성을 반영
2900 개의 직업 카테고리, 비공식, 공식, 전통 부문 포함
인도의 모든 36 개 주와 640 개의 구를 대표
자연어 필드: 문화적 배경, 언어적 배경, 기술 및 전문성, 취미 및 관심사
인물 유형: 일반, 전문, 언어, 요리, 스포츠, 예술, 여행 인물을 포함
CC BY 4.0 라이선스 하에 상업적 및 비상업적 사용 가능
NVIDIA 의 합성 데이터 생성 마이크로서비스인 NeMo Data Designer 를 사용하여 제작되었습니다. 이 복합 AI 시스템은 복잡한 Jinja 템플릿팅, Pydantic 유효성 검사, 구조화된 출력, 자동 재시도, 여러 생성 백엔드를 지원하며 — 이러한 도구로 이 크기의 합성 데이터셋을 확장할 수 있습니다. 우리는 또한 다음 모델을 활용했습니다:
**확률적 그래프 모델 (Apache-2.0)**통계적 기반을 위해
**GPT-OSS-120B (Apache-2.0)**영어, 힌디어 (데바나가리), 힌디어 (라틴) 에서의 서사 생성을 위해
이 데이터셋은 2011 년 인구 조사에 따른 인도의 공식 인구 통계 분포와 맞춰졌으며 신뢰할 수 있는 AI 훈련에 필수적인 속성을 포함하여 확장되었습니다.
교육: 인도의 다양한 학업 경로를 반영하여 학위 수준을 확장했습니다.
직업: 농업, 수선, 거리 소매 등 공식, 비공식 및 전통적인 분야를 포함합니다.
생활 단계: 학생, 가정주부, 퇴직자, 실업자 카테고리를 포함합니다.
문화적 특성: 가족 구조, 지역 축제, 결혼 전통 및 관습을 포함합니다.
디지털 격차: 도시/농촌, 연령대, 소득 수준에 따른 사용 패턴을 모델링했습니다.
언어적 다양성: 각 합성 인물에 대해 1 차, 2 차, 3 차 구어 언어에 대한 놀라운 다양성을 포함했습니다.
실제 이름 없음. 재식별 위험 없음.
모든 인물은 완전히 합성되었습니다. 2011 년 인구 조사 및 파싱된 인도 선거구 데이터에서 실제 세계 분포를 기반으로 하지만, 살아있는 개인이나 사망한 개인과 연결된 데이터는 없습니다. 이는 개발자가 프라이버시 리스크나 규제 장벽 없이 AI 시스템을 안전하게 훈련할 수 있도록 보장합니다.
인도를 위한 것, 전 세계에 준비됨
Nemotron-Personas-India 는 인도 시장을 위한 Sovereign AI 시스템을 구축하는 개발자를 위해 설계되었으며, 인도의 독특한 언어적, 문화적 및 사회적 맥락에 모델을 적응시키려는 글로벌 팀을 위해 제공됩니다.
오늘 대부분의 오픈 데이터셋은 영어 화자와 서양 규범을 반영하여 인도라는 다언어, 다 문자, 인구 통계적으로 복잡한 환경에서 AI 성능을 제한합니다.
Nemotron-Personas-India 를 통해 팀은 다음을 수행할 수 있습니다:
- 인도 언어 및 문자에서 다양한, 현실적인 훈련 데이터를 생성 - 모델을 지역 사회, 직업적, 문화적 뉘앙스를 포착하도록 세밀 조정 - 인도의 많은 커뮤니티에 걸쳐 일반화할 수 있는 지역 인식 AI 에이전트 구축 - 인도 전문 및 시민 워크플로우에 맞게 조정된 도메인별 코필럿 개발 - 복잡한 다중 턴 대화와 다양한 수준의 디지털 유창성을 처리할 수 있는 다언어 시스템 생성
인도는 14 억 명의 인구를 보유하고 있으며, 수백 개의 언어를 사용하며 광대한 문화적, 경제적 및 지리적 격차를 가지고 있습니다. 인도의 국가 AI 포털은 지역 관련 AI 시스템을 구축하기 위해 일하는 AI 스타트업과 연구 기관이 7,000 개 이상임을 추정하고, 디지털 인도 이니셔티브와 IndiaAI 와 같은 정부 프로그램은 채택을 가속화하고 있습니다.
그러나 진행은 기본적 격차에 의해 제한됩니다: 인도의 인구 통계적 현실을 반영하는 고품질의 문화 기반 훈련 데이터. 대표성 데이터셋이 없으면 AI 시스템은 영어와 힌디어 간의 코드 스위칭 (code-switching) 에 어려움을 겪고, 지역 직업 카테고리를 이해하지 못하며, 신뢰와 채택에 필수적인 문화적 맥락을 놓칩니다.
데이터셋은 인도의 실제 지리적 및 인구 통계적 분포를 반영하여 합성 생성 데이터의 다양성을 개선하고 편향을 완화하며, 다른 모델의 출력에 대한 무관심 훈련으로 인한 모델 붕괴 (degradation) 를 방지합니다.
Nemotron-Personas-India 는 중요한 지역별 인구 통계 및 문화적 맥락을 통합하는 Sovereign AI 시스템을 개발하는 인도 모델 빌더를 지원합니다.
인도의 문화, 언어 및 인물을 이해하는 AI 시스템을 구축하고 싶으신가요?
오늘 실험을 시작하기 위해:
from datasets import load_dataset
# 영어 인물
nemotron_personas_en = load_dataset("nvidia/Nemotron-Personas-India", "en_IN")
...
인도 모델 빌더가 Sovereign AI 를 개발하거나 글로벌 개발자가 더 나은 지역 채택을 추구하는 경우, Nemotron-Personas-India 는 응용 프로그램에 필요한 진정성 있고 프라이버시 안전한 기반을 제공합니다.
다운로드하세요. 튜닝하세요. 인디아를 이해하는 AI 를 구축하세요. 더 깊게 들어가고 싶으시다면, Nemotron-Personas-India 의 확장 버전 (예: 이름, 종교, 합성 주소 포함) 은 NeMo Data Designer 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기