LLM 환각 탐지를 위한 제약 조건 기반의 패러프레이즈 일관성 (Constrained Paraphrase Consistency)
요약
LLM의 환각 탐지를 위해 패러프레이즈 일관성을 활용하는 CCHD 방법론을 제안합니다. 학습 과정을 제약 최적화 문제로 공식화하여 추론 오버헤드 없이 기존 벤치마크 모델보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 패러프레이즈 일관성 및 라벨 보존 제약 조건 도입
- 제약 최적화 기반의 CCHD 프레임워크 제안
- 추론 시간의 추가 오버헤드 없이 성능 향상
- DeBERTa 및 Flan-T5 기반 실험에서 기존 모델 능가
대규모 언어 모델 (LLMs)은 사실과 일치하지 않는 주장을 생성할 수 있으며, 이는 정확하고 확장 가능한 환각 탐지기 (hallucination detectors)의 필요성을 불러일으킵니다. 기존 연구들은 주로 합성 데이터나 새로운 주석 (annotations)을 통해 학습 데이터셋을 확장해 왔으나, 이는 비용 증가와 잠재적 편향 (bias)을 초래하는 동시에 의미적으로 동일한 패러프레이즈 (paraphrases, 의역)가 내포하는 일관성을 충분히 활용하지 못한다는 단점이 있습니다. 본 논문에서는 학습을 제약 최적화 문제 (constrained optimization problem)로 공식화하는 일관성 제약 환각 탐지기 (Consistency-Constrained Hallucination Detector, CCHD)를 제안합니다. 원본 문서-주장 쌍에 대한 표준 교차 엔트로피 (cross-entropy)는 다음과 같은 요소들로 보완됩니다: (i) 패러프레이즈된 관점들 사이의 발산 (divergence)을 제한하는 패러프레이즈 일관성 제약 (paraphrase-consistency constraints), (ii) 패러프레이즈를 정답 (ground truth)에 연결하는 라벨 보존 제약 (label-preservation constraints). 우리는 모델 파라미터와 관점별 라그랑주 승수 (Lagrange multipliers)에 대한 경사 하강-상승 (gradient descent-ascent) 방식을 통해 이 문제를 해결하며, 이는 단 몇 개의 스칼라 쌍대 변수 (dual variables)만을 추가할 뿐 추론 시간 (inference-time)의 오버헤드는 발생시키지 않습니다. DeBERTa 및 Flan-T5 백본 (backbones)을 사용한 실험에서 CCHD는 표준 사실성 벤치마크에서 강력한 베이스라인 모델들 (FactCG, MiniCheck, AlignScore)을 지속적으로 능가하며, 환각 탐지에서의 우수성을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기