Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep
요약
본 논문은 대규모 언어 모델(LLMs)이 여러 웹 소스를 종합하여 생성하는 보고서에서 인용의 신뢰성을 체계적으로 평가할 수 있는 새로운 프레임워크를 제시합니다. 기존 RAG 방식은 출처 접근성, 관련성, 사실적 일관성을 검증하지 못하는 한계를 가집니다. 제안된 프레임워크는 인라인 인용을 추출하고, 링크 유효성(Link Works), 주제 적합성(Relevant Content), 그리고 소스 기반의 사실 확인(Fact Check) 세 가지 차원에서 평가를 수행합니다. 실험 결과에 따르면, 최신 모델들조차도 높은 수준의 링크 유효성을 보이지만, 사실적 정확성은 39%에서 77% 사이로 크게 떨어지는 불일치가 발견되었습니다. 또한, 검색 소스의 양이 증가할수록 오히려 인용의 사실적 정확도가 감소하는 현상도 확인되어, 단순한 정보 수집만으로는 신뢰성 확보가 어렵다는 점을 시사합니다.
핵심 포인트
- LLM 생성 보고서의 인용 신뢰성을 평가하기 위한 포괄적인 프레임워크를 개발함.
- 인용 평가는 링크 유효성(Link Works), 관련 콘텐츠 적합성(Relevant Content), 사실적 정확성(Fact Check) 세 가지 차원에서 이루어짐.
- 최첨단 LLM도 높은 링크 유효성을 보이지만, 실제 사실적 정확성은 현저히 낮아 신뢰성에 큰 격차가 존재함.
- 검색 소스의 양이 증가할수록 인용의 사실적 정확도가 오히려 감소하는 역설적인 현상을 발견하여 정보 검색의 한계를 제시함.
대규모 언어 모델 (LLMs) 이 수백 개의 웹 소스에서 정보를 종합하여 인용된 보고서로 생성하는 심층 연구 에이전트를 구동하지만, 이러한 인용은 신뢰할 수 있게 검증되지 않습니다. 현재 접근 방식은 편향을 위험하게 하는 모델의 자기 인용을 신뢰하거나, 소스 접근성, 관련성, 사실적 일관성을 검증하지 않는 리트리벌-Augmented Generation (RAG) 을 사용합니다. 우리는 LLM 생성 Markdown 보고서에서 인라인 인용을 추출하고 규모에 맞게 평가하는 첫 번째 소스 귀속 평가 프레임워크를 소개합니다. 개별 주장의 검증과 다른 방법들은 실제 인용된 콘텐츠를 검색하여 인간 또는 모델 평가자가 각 인용을 소스에 대해 판단할 수 있도록 루프를 닫습니다. 인용은 세 가지 차원에서 평가됩니다. (1) Link Works 는 URL 접근성을 확인하고, (2) Relevant Content 는 주제 정렬을 측정하며, (3) Fact Check 는 소스 콘텐츠에 대한 사실적 정확성을 검증합니다. 우리는 14 개의 폐쇄형 및 오픈소스 LLM 을 세 가지 평가 차원에서 규칙 기반의 LLM-as-a-judge 평가자를 사용하여 인간 검토를 통해 교정했습니다. 우리의 결과는 가장 강력한 프론티어 모델조차 링크 유효성을 94% 이상, 관련성을 80% 이상 유지하지만 사실적 정확성은 39-77% 만 달성하며, 오픈소스 모델의 절반 미만은 한 샷 설정에서 인용된 보고서를 성공적으로 생성한다는 것을 보여줍니다. 연구 깊이에 대한 아벨레이션 연구는 도구 호출이 2 에서 150 으로 확장함에 따라 Fact Check 정확도가 평균적으로 약 42% 감소함을 보여주며, 더 많은 검색이 더 정확한 인용을 생산하지 않음을 증명합니다. 이러한 발견은 표면적 인용 품질과 사실적 신뢰성 사이의 중요한 불일치를 드러내며, 우리의 프레임워크는 이 불일치를 평가하기 위한 평가 인프라를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기