KrishokChat: 벵골어 농업 자문을 위한 인용 근거 기반 데이터셋 및 벤치마크
요약
저자원 환경인 벵골어 농업 자문을 위해 인용 근거를 기반으로 구축된 KrishokChat 데이터셋과 Farmer Benchmark를 소개합니다. 145,500개의 QA 쌍을 통해 모델의 신뢰성을 높였으며, Gemma-4-E2B 모델 평가를 통해 RAG를 위한 지식 베이스로서의 가치를 입증했습니다.
핵심 포인트
- 벵골어 농업 특화 인용 근거 기반 데이터셋 구축
- 145,500개의 지도 미세 조정(SFT) 데이터 생성
- 실제 농민 질의를 반영한 Farmer Benchmark 도입
- RAG를 위한 검증된 지식 베이스로서의 활용성 강조
우리는 저자원 환경(low-resource settings)에서 작물 자문을 위한 최초의 인용 근거 기반(citation-grounded) 벵골어 농업 지시어 튜닝(instruction-tuning) 데이터셋인 KrishokChat을 선보입니다. 우리는 129개의 도메인 필터링된 농업 매뉴얼로부터 질병 증상, 관리 관행, 화학 물질 투여량 및 문구 그대로의 인용(verbatim citations)을 추출하여 290개의 계층적 지식 노드(Knowledge Nodes) 기반을 구축했습니다. 모든 학습 인스턴스는 검증된 인용 헤더를 상속받아 100%의 인용 출처(citation provenance)를 보장합니다. 분할 시드 생성 매트릭스(Partitioned Seed Generation Matrix)를 사용하여 이러한 노드들을 139,200개의 지도 미세 조정(supervised fine-tuning, SFT) 쌍으로 확장하였으며, 5,300개의 화학 안전 및 1,000개의 적대적 안전(adversarial safety) 인스턴스를 추가하여 18개 작물 범주에 걸쳐 145,500개의 QA 쌍을 생성했습니다. 실제 성능을 평가하기 위해, 우리는 현장 조사 및 디지털 포털에서 큐레이션된 1,001개의 실제 농민 질의로 구성된 Farmer Benchmark를 도입합니다. Gemma-4-E2B에 대한 실증적 평가 결과, KrishokChat으로 미세 조정(fine-tuning)하면 구조화된 형식(structured formatting)은 크게 개선되지만, 단독 모델은 여전히 정확한 화학 물질 투여량 일반화에 어려움을 겪는 것으로 나타났습니다. 이는 이 데이터셋의 진정한 가치가 단순한 파라미터 암기(parametric memorization)보다는 검색 증강 생성(retrieval-augmented generation, RAG)을 위한 검증된 지식 베이스로서 존재함을 강조합니다. 모든 데이터, 코드 및 벤치마크는 CC-BY-4.0 라이선스 하에 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기