arXiv논문2026. 06. 03. 11:04

환각 거부 샘플링 (Hallucination Rejection Sampling)을 통한 신뢰할 수 있는 장문 생성 구축

요약

장문 생성 시 발생하는 환각 스노우볼링 문제를 해결하기 위해 SHARS 프레임워크를 제안합니다. 환각 탐지기를 사용하여 오류가 발생한 세그먼트를 식별하고 재샘플링함으로써 사실적 일관성을 높입니다.

핵심 포인트

SHARS 프레임워크를 통한 장문 생성 환각 완화
환각 스노우볼링 현상 억제 및 사실적 일관성 향상
외부 리소스 없이 모델 자체의 교정 능력 활용
의미론적 불확실성을 활용한 세그먼트 단위 재샘플링

대규모 언어 모델 (LLMs)은 개방형 텍스트 생성 분야에서 놀라운 발전을 이루었으나, 여전히 부정확하거나 근거 없는 내용을 생성하는 환각 (Hallucination) 현상에 취약하며, 이는 모델의 신뢰성을 저해합니다. 이러한 문제는 초기 오류가 전파되어 이후의 출력물로 누적 및 증폭되는 현상인 '환각 스노우볼링 (hallucination snowballing)'으로 인해 장문 생성 (long-form generation) 시 더욱 악화됩니다. 이 과제를 해결하기 위해, 우리는 임의의 환각 탐지기 (hallucination detector)를 사용하여 생성 과정 중 환각이 발생한 세그먼트 (segment)를 식별 및 거부하고, 충실한 내용이 생성될 때까지 재샘플링 (resample)하는 새로운 추론 시간 환각 완화 프레임워크인 Segment-wise HAllucination Rejection Sampling (SHARS)를 제안합니다. 확신할 수 있는 정보만을 유지하고 이를 바탕으로 후속 생성을 구축함으로써, 이 프레임워크는 환각의 축적을 완화하고 사실적 일관성 (factual consistency)을 향상시킵니다. 이 프레임워크를 구현하기 위해, 우리는 의미론적 불확실성 (semantic uncertainty)을 탐지기로 채택하였으며, 그 한계를 해결하고 장문 텍스트에 더 잘 적응할 수 있도록 몇 가지 중요한 수정 사항을 도입했습니다. 우리의 방법은 웹 검색이나 지식 베이스 (knowledge bases)와 같은 외부 리소스를 필요로 하지 않고도 모델이 스스로 환각을 교정할 수 있게 하며, 향후 확장을 위해 이러한 리소스들과도 호환성을 유지합니다. 표준화된 환각 벤치마크에 대한 실증적 평가 결과, 우리의 방법은 생성의 정보성 (informativeness)을 유지하거나 심지어 향상시키면서도 장문 생성에서의 환각을 실질적으로 감소시킨다는 것을 입증했습니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/TreeLLi/hallucination-rejection-sampling.

AI 자동 생성 콘텐츠

원문 바로가기

환각 거부 샘플링 (Hallucination Rejection Sampling)을 통한 신뢰할 수 있는 장문 생성 구축

요약

핵심 포인트

댓글