arXiv논문2026. 05. 28. 13:21

검증된 오도(Verified Misguidance): 검색 증강 LLM에서의 구조적 인용 실패 측정

요약

검색 증강 LLM(RAG)의 인용 신뢰성을 측정하기 위한 대규모 데이터셋 CITETRACE와 평가 프레임워크를 제안합니다. 연구 결과, 모델이 실제 출처를 인용하면서도 내용을 왜곡하는 '검증된 오도(VM)' 현상과 충실도-적합성 간의 트레이드오프를 발견했습니다.

핵심 포인트

CITETRACE 데이터셋 구축: 11,200개 질의 및 112,000개 답변 포함
인용 실패의 세 가지 차원: 의도-목적 일치성, 출처 적합성, 답변-출처 충실도
검증된 오도(VM) 패턴 발견: 실제 출처를 인용하면서도 정보를 왜곡하는 현상
충실도-적합성 트레이드오프: 모델의 충실도와 출처 선택의 적합성 간 상충 관계
인용 품질의 높은 변동성: 사용자 답변의 최대 96%가 구조적 오도 인용 경험

검색 증강 LLM (search-augmented LLMs)의 사용자들은 답변이 실제 출처에 근거하고 있다는 증거로서 인용 (citation)에 의존하며, 인용된 페이지 자체를 직접 확인하는 경우는 드뭅니다. 현재 매일 수백만 개의 질의가 이러한 시스템을 거치고 있으며, 이는 인용의 품질이 사용자가 정보를 얻을지 아니면 잘못된 정보에 속을지를 결정하는 보이지 않는 결정 요인이 되게 합니다. 그러나 기존의 벤치마크 (benchmarks)들은 각각의 측면을 고립되어 다루고 있어, 인용의 신뢰성을 결정하는 결합된 구조를 측정하지 못하고 있습니다. 우리는 사용자 질의부터 검색된 출처, 그리고 생성된 답변에 이르기까지 전체 인용 체인을 추적하는 대규모 데이터셋인 CITETRACE를 구축했습니다. 28개 커뮤니티에서 수집한 11,200개의 실제 질의와 5개 제공업체의 10개 모델로부터 생성된 112,000개의 답변을 쌍으로 구성하여, 총 761,495개의 평가 가능한 인용 쌍을 확보했습니다. 우리는 전문가가 검증한 사전 정의된 매트릭스 (matrices)와 5단계 충실도 루브릭 (fidelity rubric)을 사용하여, 각 인용을 의도-목적 일치성 (intent-purpose alignment), 출처 적합성 (source suitability), 답변-출처 충실도 (answer-source fidelity)의 세 가지 차원에서 점수화하는 평가 프레임워크를 설계했습니다. 이 프레임워크는 인용을 포함하는 답변을 생성하는 모든 시스템에 적용 가능합니다. 이 프레임워크를 대규모로 적용한 결과, 우리는 '검증된 오도 (VERIFIED MISGUIDANCE, VM)'라고 부르는 체계적인 패턴을 발견했습니다. 즉, 모델들이 실제 접근 가능한 출처를 인용하면서도 하나 이상의 차원에서 실패하며, 충실한 모델은 부적절한 출처를 선택하고 그 반대의 경우도 발생하는 '충실도-적합성 트레이드오프 (fidelity-suitability trade-off)'를 생성한다는 것입니다. 전체 데이터셋에서 인용의 30.6%는 출처를 왜곡하며, 27.1%는 도메인에 부적절한 출처에서 기인합니다. 답변 수준에서는 사용자의 최대 96%가 적어도 하나 이상의 구조적으로 오도하는 인용을 접하게 됩니다. 제공업체 수준의 차이가 인용 품질 분산의 88-96%를 설명하며, 이는 출처 선택이 LLM 자체의 능력보다는 개별 모델의 능력을 벗어난 요인들에 의해 더 많이 지배됨을 시사합니다. CITETRACE와 그 평가 프레임워크는 배포된 검색 증강 시스템에서 발생하는 구조적 인용 실패를 진단하기 위한 최초의 리소스를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

검증된 오도(Verified Misguidance): 검색 증강 LLM에서의 구조적 인용 실패 측정

요약

핵심 포인트

댓글