지구 관측 데이터 탐색에 에이전트 기반 검색 도입하기
요약
NASA의 방대한 지구과학 데이터셋을 효율적으로 탐색하기 위해 에이전트 기반 검색 시스템을 도입했습니다. LLM과 지식 그래프를 결합하여 자연어 질의에 최적화된 데이터셋을 찾아내며, 기존 검색 방식보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 자연어 질의를 통해 NASA의 지구과학 데이터셋과 도구를 검색하는 에이전트 시스템 구축
- 지식 그래프(NASA EO-KG)를 활용하여 에이전트 기반 검색의 가치 증폭
- NASA-EO-Bench 벤치마크를 통해 미세 조정된 신경망 스코어러의 성능 검증
- 제로샷 에이전트 재순위화 단계를 통해 검색 정확도(MRR)를 크게 향상
NASA와 그 데이터 센터들은 Worldview, Giovanni, Science Discovery Engine, Harmony와 같은 수천 개의 지구과학 데이터셋과 도구들을 보유하고 있습니다. 적절한 데이터를 찾는 것은 도메인 전문가들에게도 어려운 일입니다. 우리는 지구과학 커뮤니티를 위한 공공 서비스로 배포된 에이전트 기반 검색 (agentic search) 시스템을 선보이며, 이 시스템은 자연어 연구 질의를 입력받아 일치하는 데이터셋과 도구를 반환합니다. 우리는 대규모 언어 모델 (LLM) 시대에 지식 그래프 (Knowledge Graphs, KGs)의 잠재적 가치가 에이전트 기반 검색을 통해 실질적으로 증폭될 수 있음을 입증합니다. NASA 지구 관측 지식 그래프 (NASA Earth Observation Knowledge Graph, NASA EO-KG)로부터 우리는 47,000개의 질의-데이터셋 쌍 (21,000개의 태스크 기반 질의)으로 구성된 공개 벤치마크인 NASA-EO-Bench를 도출했습니다. NASA-EO-Bench로 미세 조정 (fine-tuned)된 신경망 스코어러 (neural scorer)는 코사인 (cosine) 유사도 및 BM25 베이스라인을 능가합니다. 여기에 점수 융합 (score fusion)을 통해 BM25를 결합하면 Recall@10 (R@10)과 MRR 모두 5배 이상 향상됩니다. 이 지도 학습 기반 파이프라인 (supervised pipeline) 위에, 우리는 추가 학습 없이도 층화된 N=200 서브셋에서 MRR을 28% 끌어올리는 제로샷 에이전트 재순위화 (zero-shot agentic reranking) 단계를 추가하였으며, 이는 LLM의 추론 (reasoning)이 지도 학습 기반 검색 (supervised retrieval)을 보완한다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기