HuggingFace, IISc 협력으로 인도의 다양한 언어 모델 구축 가속화

요약

Hugging Face와 IISc/ARTPARK의 파트너십으로 인도의 방대한 언어적 다양성을 포괄하는 오픈소스 멀티모달 데이터셋 'Vaani'가 구축되고 있습니다. 이 프로젝트는 773개 구에서 수집된 15만 시간 이상의 음성 및 전사 데이터를 포함하며, 주류 언어뿐 아니라 원격 지역의 방언까지 아우르는 독보적인 규모와 지리적 대표성을 자랑합니다. Vaani 데이터셋은 STT/TTS 모델 미세 조정, 발화자 식별, 언어 식별 등 다양한 AI 애플리케이션 개발에 활용될 수 있으며, 인도 전역을 커버하는 포용적이고 견고한 기초 음성 모델 구축의 핵심 자원이 될 것입니다.

핵심 포인트

Vaani 데이터셋은 773개 구에서 수집된 15만 시간 이상의 방대한 음성 및 전사 데이터를 포함하며, 인도의 언어적 다양성을 포괄적으로 반영합니다.
이 데이터셋은 주류 언어뿐 아니라 원격 지역의 방언과 소외된 지역의 언어를 담아 지리적/언어적 대표성이 매우 높습니다.
개발 가능한 주요 AI 애플리케이션으로는 STT/TTS, 발화자 식별(Speaker Identification), 언어 식별(Language Identification) 등이 있습니다.
Hugging Face와 IISc/ARTPARK의 협력을 통해 데이터셋 구축이 지속적으로 확장되어 인도 전역을 커버할 예정입니다.

Hugging Face 와 IISc/ARTPARK 의 파트너십은 Vaani 데이터셋의 접근성을 높이고 사용성을 개선하여, 인도의 다양한 언어를 더 잘 이해하고 그 사람의 디지털 요구에 부응하는 AI 시스템 개발을 장려하는 것을 목표로 합니다.

2022 년에 IISc/ARTPARK 와 Google 에서 발족한 Project Vaani 는 인도의 언어적 다양성을 진정으로 반영하는 오픈소스 멀티모달 데이터셋을 구축하기 위한 선구적인 프로젝트입니다. 이 데이터셋은 지리 중심 접근 방식을 통해 주류 언어뿐만 아니라 원격 지역의 방언과 언어를 수집할 수 있도록 하여 독특합니다.

Vaani 는 773 개 구의 모든 100 만 명의 사람들이에서 수집된 15 만 시간 이상의 음성 데이터와 1 만 시간의 전사 텍스트 데이터를 확보하여, 언어, 방언 및 인구 통계학적 다양성을 보장합니다.

데이터셋은 단계별로 구축되고 있으며, Phase 1 은 80 개 구를 포함하고 이미 오픈소스로 공개되었습니다. Phase 2 는 현재 진행 중이며 데이터셋을 100 개의 추가 구로 확장하여 Vaani 의 인도의 다양한 언어적 풍경에 대한 영향력을 더욱 강화하고 있습니다.

Vaani 데이터셋의 주요 하이라이트 (오픈소스, 2025 년 2 월 15 일 기준)

Vaani 데이터셋은 인도의 구별에 걸쳐 풍부한 언어 분포를 보여주어 지역 수준의 언어적 다양성을 강조합니다. 이 정보는 특정 지역과 방언에 맞춤화된 음성 모델을 구축하려는 연구자, AI 개발자 및 언어 기술 혁신자에게 매우 가치 있습니다. 상세한 구별별 언어 분포를 확인하려면 다음을 방문하세요: Vaani Dataset on HuggingFace

만약 전사 데이터만 접근하고 전사되지 않은 오디오 전용 데이터를 건너뛰고 싶다면, 더 큰 데이터셋의 일부가 여기에서 오픈소스로 공개되었습니다. 이 데이터셋은 ~700 만 명의 화자를 포함하는 790 시간의 전사 오디오를 가지고 있으며 70K 이미지를 포함합니다. 이 리소스는 정확한 전사와 매칭된 작은 분할 오디오 단위를 포함하여 다음과 같은 다양한 작업을 가능하게 합니다:

Speech Recognition: 발음 모델 훈련을 통해 정확하게 전사된 언어를 전사.
Language Modeling: 더 정교한 언어 모델을 구축.
Segmentation Tasks: 향상된 전사 정확도를 위해 구별된 음성 단위를 식별.

이 추가 데이터셋은 주요 Vaani 데이터셋을 보완하여 엔드 투 엔드 음성 인식 시스템을 개발하고 더 타겟팅된 AI 솔루션을 가능하게 합니다.

Vaani 데이터셋은 광범위한 언어 커버리지 (54 개 언어), 다양한 지리적 지역에서의 대표성, 다양한 교육 및 사회 경제적 배경, 매우 큰 화자 커버리지, 자발적 음성 데이터, 그리고 실제 생활 데이터 수집 환경과 같은 여러 가지 주요 장점을 제공합니다. 이러한 기능은 다음을 위한 포용적인 AI 모델을 가능하게 할 수 있습니다:

Speech-to-Text (STT) 및 Text-to-Speech (TTS): LLM 기반 및 비-LLM 기반 애플리케이션 모두에 대한 모델 미세 조정 (fine-tuning). 또한, 전사 태그링은 코드 스위칭 (인도어와 영어 언어) ASR 모델 개발을 가능하게 합니다.

Foundational Speech Models for Indic Languages: 해당 데이터셋의 중요한 언어학적 및 지리적 범위는 인도어 (Indic languages) 기반 견고한 기초 모델 개발을 지원합니다.

Speaker Identification/Verification Models: 80,000 명 이상의 발화자 데이터를 통해, 발화자 식별 및 확인 모델을 개발하는 데 매우 적합합니다.

Language Identification Models: 다양한 실제 응용 프로그램을 위한 언어 식별 모델 생성을 가능하게 합니다.

Speech Enhancement Systems: 데이터셋의 태그 시스템은 고급 음성 향상 기술 개발을 지원합니다.

Enhancing Multimodal LLMs: 고유한 데이터 수집 방식은 다른 다중 모달리티 (multimodal) 데이터셋과 결합할 때 LLM 의 다중 모달리티 능력을 구축하고 개선하는 데 가치 있습니다.

Performance Benchmarking: 다양한 언어적, 지리적, 실제 세계 데이터 속성으로 인해 음성 모델 벤치마킹을 위한 이상적인 선택지입니다.

이러한 AI 모델은 대화형 AI (Conversational AI) 애플리케이션의 광범위한 범위를 구동할 수 있습니다. 교육 도구부터 원격 의료 플랫폼, 헬스케어 솔루션, 유권자 헬pline, 미디어 현지화, 다국어 스마트 디바이스까지, Vaani 데이터셋은 실제 시나리오에서 게임 체인저 (game-changer) 가 될 수 있습니다.

IISc/ARTPARK 와 Google 은 파트너십을 Phase 2 (추가 100 개 구청) 로 확장했습니다. 이를 통해 Vaani 는 인도 모든 주를 커버합니다! 우리는 이 데이터셋을 여러분 모두에게 제공하기를 기대합니다.

이 지도는 2025 년 2 월 5 일 현재 데이터가 수집된 인도의 구청을 강조합니다

가장 의미 있는 기여는 Vaani 데이터셋을 사용하는 것입니다. 새로운 AI 애플리케이션 구축, 연구 수행 또는 혁신적인 사용 사례 탐구에 관계없이, 여러분의 참여는 프로젝트의 개선과 확장을 돕습니다.

데이터셋 사용 후 피드백이나 통찰력을 가지신다면 말씀해 주시면 감사하겠습니다. vaanicontact@gmail.com 로 연락하여 경험을 공유하거나 협력 기회를 문의하거나, 이 피드백 양식을 작성해 주세요.

인도의 언어적 다양성을 위해 ❤️로 제작되었습니다

AI 자동 생성 콘텐츠

원문 바로가기

HuggingFace, IISc 협력으로 인도의 다양한 언어 모델 구축 가속화

요약

핵심 포인트

댓글