arXiv논문2026. 06. 09. 10:44

AgriGov: 농민을 위한 인도 정부 정책의 구조화된 다국어 데이터셋 큐레이션

요약

AgriGov는 인도 농업 정책을 위한 영어, 힌디어, 마라티어 3개 국어 구조화 데이터셋입니다. 자동 스크래핑과 기계 번역 및 인간 교정 파이프라인을 통해 구축되었으며, 도메인 특화 기계 번역 및 RAG 애플리케이션 연구를 지원합니다.

핵심 포인트

농업 정책 특화 3개 국어(영어, 힌디어, 마라티어) 데이터셋 구축
자동 스크래핑 및 의미론적 필드 기반의 구조화된 데이터 제공
기계 번역과 인간 사후 편집을 결합한 고품질 번역 파이프라인
도메인 적응형 번역, QA, RAG 시스템 연구를 위한 리소스

AgriGov는 농업 정책 및 농민 복지 계획에 대한 도메인 기반의 다국어 리소스 부족 문제를 해결하기 위해 설계된 큐레이션된 3개 국어(영어-힌디어-마라티어) 데이터셋입니다. 초기 단계에서 우리는 자동 스크래핑 (automated scraping) 기술을 사용하여 신뢰할 수 있는 포털에서 가져온 50개의 정부 정책 데이터를 수집하고 구조화하였으며, 이를 사전 정의된 의미론적 필드(예: 제목, 자격 요건, 신청 프로세스, 서류, 제외 사항)로 정리하였습니다. 번역은 Google Translate API, MarianMT, 그리고 인간의 사후 편집 (human post-editing)을 결합한 파이프라인을 통해 수행되었으며, 그 결과 약 2,100개의 소스 세그먼트로 구성된 도메인 특화 힌디어-마라티어 데이터셋을 구축하였습니다. 커버리지를 높이기 위해 Samanantar 코퍼스의 문장들을 사용하여 이 데이터셋을 증강하였으며, 이를 통해 약 8,000개의 문장 정렬된(sentence-aligned) 힌디어-마라티어 병렬 쌍을 확보하였습니다. 이 데이터셋은 이제 해당 도메인의 기계 번역 (machine translation) 모델을 미세 조정 (fine-tuning)하기 위한 강력한 리소스를 제공합니다. AgriGov는 도메인 적응형 기계 번역 (domain-adaptive machine translation), 질의응답 (question answering), 정보 검색 (information retrieval), 그리고 요약 (summarization) 시스템 애플리케이션을 위해 설계되었습니다. 이 연구의 핵심 기여는 도메인 충실도를 보장하고, 출처를 제공하며, 재현 가능한 실험을 지원하는 스키마 기반의 인간 교정 다국어 정렬 파이프라인을 구축함으로써, 농민 대상 도구를 위한 검색 증강 (retrieval-augmented) 애플리케이션을 가능하게 한다는 점입니다.

AI 자동 생성 콘텐츠

원문 바로가기

AgriGov: 농민을 위한 인도 정부 정책의 구조화된 다국어 데이터셋 큐레이션

요약

핵심 포인트

댓글