ACL-Verbatim: 연구를 위한 환각 없는 질의응답

학술 연구자들은 신뢰할 수 있는 출처로부터 고품질의 정보를 수집하기 위해 효율적이고 신뢰할 수 있는 방법이 필요하지만, AI 보조 연구를 위한 현대적 도구들은 여전히 대규모 언어 모델 (LLMs)이 사실적으로 부정확하거나 무의미한 출력을 생성하는 경향, 즉 흔히 환각 (hallucinations)이라고 불리는 문제로 어려움을 겪고 있습니다. 우리는 추출형 질의응답 (extractive question answering) 시스템인 VerbatimRAG를 ACL Anthology의 연구 논문들에 적용하여, 사용자의 질의를 검색된 문서 내의 문구 그대로인 텍스트 구간 (verbatim text spans)에 직접 매핑합니다. 우리는 연구 논문 내의 사용자 질의를 관련 텍스트 구간에 매핑하는 작업을 위한 새로운 정답 (ground truth) 데이터셋을 기여하며, 이를 사용하여 다양한 추출형 모델을 학습시키고 평가합니다. 인간 주석 (Human annotation)은 NLP 연구자들에 의해 수행되었으며, ScIRGen 방법론을 기반으로 한 맞춤형 파이프라인을 통해 생성된 합성 사용자 질의와 VerbatimRAG에 의해 검색된 연구 논문의 청크 (chunks)를 쌍으로 구성하여 진행되었습니다. 이 벤치마크에서, 우리의 파이프라인으로부터 얻은 실버 감독 (silver supervision) 데이터로 학습된 150M 파라미터 규모의 ModernBERT 토큰 분류기 (token classifier)는 단어 수준 F1 점수 53.6을 달성하며, 평가된 가장 강력한 LLM 추출기 (48.7)를 앞질렀습니다.

Insights

ACL-Verbatim: 연구를 위한 환각 없는 질의응답

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어