Faithfulness-QA: 컨텍스트 충실한 RAG 모델 학습을 위한 반사실적 엔티티 치환 데이터셋
요약
본 논문은 RAG 모델이 검색된 컨텍스트 대신 내부 파라메트릭 메모리에 의존하여 답변을 생성하는 '불충실함(unfaithfulness)' 문제를 해결하기 위해 Faithfulness-QA라는 대규모 데이터셋을 제안합니다. 이 데이터셋은 SQuAD와 TriviaQA 같은 기존 QA 벤치마크에서 명명 엔티티를 식별하고, 이를 유형에 맞는 가짜(counterfactual) 엔티티로 치환하여 구축되었습니다. 이러한 과정을 통해 모델이 컨텍스트 기반의 답변 생성 능력을 학습하도록 유도하며, 이는 RAG 시스템 평가 및 학습 자원으로 활용될 수 있습니다.
핵심 포인트
- RAG 모델의 핵심 문제인 '불충실함(unfaithfulness)'을 해결하기 위한 새로운 접근 방식을 제시합니다.
- Faithfulness-QA는 기존 QA 벤치마크에서 명명 엔티티를 식별하고, 이를 유형에 맞는 반사실적 엔티티로 치환하여 구축된 대규모 데이터셋입니다.
- 이 데이터셋은 모델에게 컨텍스트와 내부 지식 간의 '통제된 지식 충돌'을 유발하도록 설계되어, 컨텍스트 기반 답변 생성을 강제합니다.
- Faithfulness-QA는 학습 자원(attention-based faithfulness objectives)뿐만 아니라 RAG 시스템 평가 벤치마크로도 활용 가능합니다.
검색 증강 생성 (Retrieval-Augmented Generation, RAG) 모델은 종종 검색된 컨텍스트 대신 파라메트릭 메모리 (parametric memory) 에 기반하여 답변을 생성함으로써, 검색 증강의 핵심 약속을 훼손합니다. 이러한 불충실함 (unfaithfulness) 을 해결하는 데 있어 근본적인 장벽은 모델이 내부 지식을 컨텍스트보다 우선시하도록 명시적으로 요구하는 학습 데이터의 부재입니다. 우리는 반사실적 엔티티 치환 (counterfactual entity substitution) 을 통해 구축된 99,094 개의 샘플로 구성된 대규모 데이터셋인 Faithfulness-QA 를 소개합니다. 두 가지 확립된 추출형 QA 벤치마크인 SQuAD 와 TriviaQA 에서 시작하여 각 컨텍스트 내의 답변을 담고 있는 명명 엔티티 (named entities) 를 자동으로 식별한 후, 76,953 개의 엔티티로 구성된 큐레이션된 은행에서 유형과 일치하는 대안으로 치환합니다. 이를 통해 컨텍스트와 파라메트릭 메모리 사이의 통제된 지식 충돌을 유발합니다. 엄격한 품질 필터링을 통해 무작위 200 샘플 감사에서 네 가지 자동화 검사 모두 100% 통과율을 확보했습니다. 우리는 전체 데이터셋, 구축 파이프라인 및 명명 엔티티 8 개 범주를 포괄하는 유형화된 엔티티 은행을 공개합니다. Faithfulness-QA 는 주의 기반 충실도 목표 (attention-based faithfulness objectives) 를 위한 학습 자원으로서, 그리고 RAG 시스템의 컨텍스트 기반화 행동 (context-grounding behavior) 을 측정하기 위한 평가 벤치마크로서 설계되었습니다. 데이터와 코드는 https://github.com/qzhangFDU/faithfulness-qa-dataset 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기