arXiv논문2026. 06. 30. 10:45

KrishokChat: 벵골어 농업 자문을 위한 인용 근거 기반 데이터셋 및 벤치마크

요약

저자원 환경인 벵골어 농업 자문을 위해 인용 근거를 기반으로 구축된 KrishokChat 데이터셋과 Farmer Benchmark를 소개합니다. 145,500개의 QA 쌍을 통해 모델의 신뢰성을 높였으며, Gemma-4-E2B 모델 평가를 통해 RAG를 위한 지식 베이스로서의 가치를 입증했습니다.

핵심 포인트

벵골어 농업 특화 인용 근거 기반 데이터셋 구축
145,500개의 지도 미세 조정(SFT) 데이터 생성
실제 농민 질의를 반영한 Farmer Benchmark 도입
RAG를 위한 검증된 지식 베이스로서의 활용성 강조

우리는 저자원 환경(low-resource settings)에서 작물 자문을 위한 최초의 인용 근거 기반(citation-grounded) 벵골어 농업 지시어 튜닝(instruction-tuning) 데이터셋인 KrishokChat을 선보입니다. 우리는 129개의 도메인 필터링된 농업 매뉴얼로부터 질병 증상, 관리 관행, 화학 물질 투여량 및 문구 그대로의 인용(verbatim citations)을 추출하여 290개의 계층적 지식 노드(Knowledge Nodes) 기반을 구축했습니다. 모든 학습 인스턴스는 검증된 인용 헤더를 상속받아 100%의 인용 출처(citation provenance)를 보장합니다. 분할 시드 생성 매트릭스(Partitioned Seed Generation Matrix)를 사용하여 이러한 노드들을 139,200개의 지도 미세 조정(supervised fine-tuning, SFT) 쌍으로 확장하였으며, 5,300개의 화학 안전 및 1,000개의 적대적 안전(adversarial safety) 인스턴스를 추가하여 18개 작물 범주에 걸쳐 145,500개의 QA 쌍을 생성했습니다. 실제 성능을 평가하기 위해, 우리는 현장 조사 및 디지털 포털에서 큐레이션된 1,001개의 실제 농민 질의로 구성된 Farmer Benchmark를 도입합니다. Gemma-4-E2B에 대한 실증적 평가 결과, KrishokChat으로 미세 조정(fine-tuning)하면 구조화된 형식(structured formatting)은 크게 개선되지만, 단독 모델은 여전히 정확한 화학 물질 투여량 일반화에 어려움을 겪는 것으로 나타났습니다. 이는 이 데이터셋의 진정한 가치가 단순한 파라미터 암기(parametric memorization)보다는 검색 증강 생성(retrieval-augmented generation, RAG)을 위한 검증된 지식 베이스로서 존재함을 강조합니다. 모든 데이터, 코드 및 벤치마크는 CC-BY-4.0 라이선스 하에 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

KrishokChat: 벵골어 농업 자문을 위한 인용 근거 기반 데이터셋 및 벤치마크

요약

핵심 포인트

댓글