본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:57

ACL-Verbatim: 연구를 위한 환각 없는 질의응답

요약

학술 연구 과정에서 발생하는 LLM의 환각 문제를 해결하기 위해, 검색된 문서의 문구를 그대로 인용하는 추출형 질의응답 시스템인 VerbatimRAG를 제안합니다. ACL Anthology 논문을 기반으로 한 새로운 정답 데이터셋을 구축하였으며, 이를 통해 학습된 ModernBERT 모델이 기존의 강력한 LLM 추출 성능을 상회하는 결과를 보여주었습니다.

핵심 포인트

  • LLM의 환각 현상을 방지하기 위해 문서 내 텍스트 구간을 직접 매핑하는 추출형(Extractive) 방식 제안
  • ACL Anthology 연구 논문을 활용한 새로운 정답(Ground Truth) 데이터셋 기여
  • ScIRGen 방법론을 기반으로 합성 질의와 논문 청크를 쌍으로 구성하는 맞춤형 파이프라인 구축
  • 150M 규모의 ModernBERT 토큰 분류기가 기존 LLM 추출기보다 높은 F1 점수(53.6)를 기록

학술 연구자들은 신뢰할 수 있는 출처로부터 고품질의 정보를 수집하기 위해 효율적이고 신뢰할 수 있는 방법이 필요하지만, AI 보조 연구를 위한 현대적 도구들은 여전히 대규모 언어 모델 (LLMs)이 사실적으로 부정확하거나 무의미한 출력을 생성하는 경향, 즉 흔히 환각 (hallucinations)이라고 불리는 문제로 어려움을 겪고 있습니다. 우리는 추출형 질의응답 (extractive question answering) 시스템인 VerbatimRAG를 ACL Anthology의 연구 논문들에 적용하여, 사용자의 질의를 검색된 문서 내의 문구 그대로인 텍스트 구간 (verbatim text spans)에 직접 매핑합니다. 우리는 연구 논문 내의 사용자 질의를 관련 텍스트 구간에 매핑하는 작업을 위한 새로운 정답 (ground truth) 데이터셋을 기여하며, 이를 사용하여 다양한 추출형 모델을 학습시키고 평가합니다. 인간 주석 (Human annotation)은 NLP 연구자들에 의해 수행되었으며, ScIRGen 방법론을 기반으로 한 맞춤형 파이프라인을 통해 생성된 합성 사용자 질의와 VerbatimRAG에 의해 검색된 연구 논문의 청크 (chunks)를 쌍으로 구성하여 진행되었습니다. 이 벤치마크에서, 우리의 파이프라인으로부터 얻은 실버 감독 (silver supervision) 데이터로 학습된 150M 파라미터 규모의 ModernBERT 토큰 분류기 (token classifier)는 단어 수준 F1 점수 53.6을 달성하며, 평가된 가장 강력한 LLM 추출기 (48.7)를 앞질렀습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0