본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 14:05

농업 문서 내 저자원 언어의 효과적인 텍스트 임베딩을 위한 청킹 (Chunking) 전략 평가

요약

크메르어 농업 문서를 대상으로 RAG 프레임워크 내 최적의 청킹 전략을 비교 연구했습니다. 재귀적, 크메르어 인식, 문장 기반, LLM 기반 방식 중 300자 크기의 재귀적 청킹이 가장 우수한 성능을 보였습니다.

핵심 포인트

  • 저자원 언어 RAG에서 청킹 전략의 중요성 확인
  • 300자 재귀적 청킹이 검색 점수 및 답변 관련성에서 최고 성능 달성
  • BGE-M3 모델과 FAISS를 활용한 밀집 검색 최적화 실험
  • 형태론적 복잡성을 고려한 세분화 입도와 구조 보존의 필요성 강조

본 연구에서는 크메르어 (Khmer) 농업 문서에 적용된 검색 증강 생성 (RAG, Retrieval-Augmented Generation) 프레임워크 내에서 네 가지 텍스트 청킹 (Chunking) 접근 방식인 재귀적 (Recursive), 크메르어 인식 (Khmer-Aware), 문장 기반 (Sentence-Based), 그리고 LLM 기반 (LLM-Based) 방식의 성능을 비교합니다. 문서 청크 (Document chunks)는 BGE-M3 다국어 임베딩 (Multilingual embedding) 모델을 사용하여 인코딩되며, FAISS 라이브러리를 사용하여 검색됩니다. 성능은 네 가지 지표인 평균 검색 점수 (Average Retrieval Score, L2 distance), 답변 관련성 (Answer Relevance), 크메르어 커버리지 (Khmer Coverage), 그리고 크메르어 IoU (Khmer Intersection over Union)를 사용하여 평가하며, 모두 정답 (Ground-truth) 질문-답변 쌍을 기준으로 측정됩니다. 평가를 위해 18개의 질문-답변 쌍에 대해 5-겹 교차 검증 (5-fold cross-validation)을 수행합니다. 연구 결과, 300자 크기의 문자 기반 재귀적 (Recursive) 청킹 방식이 가장 우수한 성능을 보였으며, 가장 낮은 L2 거리 (0.4295 +- 0.0461), 가장 높은 답변 관련성 (0.8663 +- 0.0199), 그리고 가장 높은 크메르어 IoU (0.6441 +- 0.0347)를 달성했습니다. 대응 표본 t-검정 (Paired t-test) 결과, L2 거리 측면에서 문장 기반 (Sentence-Based) 청킹 방식보다 통계적으로 유의미한 개선을 보였습니다 (p = 0.0121). 이러한 결과는 크메르어와 같이 형태론적으로 복잡한 저자원 언어 (Low-resource languages)에서 밀집 검색 (Dense retrieval)을 최적화하기 위한 세분화 입도 (Segmentation granularity)와 구조적 보존 (Structural preservation)의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0