arXiv논문2026. 05. 14. 07:17

Large Language Models에서의 확장 가능한 토큰 수준 환각 탐지 (Scalable Token-Level Hallucination

요약

본 논문은 LLM이 생성하는 환각(hallucinations) 문제를 해결하기 위해 TokenHD라는 통합 파이프라인을 제안합니다. 기존의 단계별 분석 방식은 낮은 입도와 확장성 문제에 직면해 있었으나, TokenHD는 대규모 합성 주석 엔진과 중요도 가중치 전략을 통해 토큰 수준에서 환각을 탐지할 수 있습니다. 이 방법론은 자유 형식 텍스트에서 직접 작동하며, 작은 규모의 탐지기만으로도 큰 추론 모델에 필적하는 높은 성능과 뛰어난 확장성을 입증했습니다.

핵심 포인트

TokenHD는 LLM의 환각을 토큰 수준에서 탐지하기 위한 통합 파이프라인이다.
기존 단계별 분석 방식의 낮은 입도와 확장성 문제를 해결한다.
대규모 합성 주석 엔진과 중요도 가중치 전략을 활용하여 모델 학습에 사용된다.
TokenHD는 자유 형식 텍스트에서 직접 작동하며, 사전 단계 분할이나 재형식화가 필요 없다.
작은 규모의 탐지기(0.6B)만으로도 큰 추론 모델 대비 높은 성능과 뛰어난 확장성을 보여준다.

Large Language Models (LLMs)는 놀라운 능력을 보여주었지만, 여전히 빈번하게 환각 (hallucinations)을 생성합니다. 이러한 환각은 추론 집약적인 작업에서 탐지하기 어려운데, 이 경우 내용은 일관되어 보이지만 논리적 결함이나 신뢰할 수 없는 중간 결과와 같은 오류를 포함하고 있기 때문입니다. 내부 환각을 탐지하기 위해 단계별 분석 (step-level analysis)이 흔히 사용되지만, 이는 단계 분할 (step segmentation)에 의존하기 때문에 낮은 입도 (granularity)와 부족한 확장성 (scalability)이라는 문제를 겪습니다. 이러한 한계를 해결하기 위해, 우리는 토큰 수준 환각 탐지기 (token-level hallucination detectors)를 학습시키기 위한 통합 파이프라인인 TokenHD를 제안합니다. 구체적으로, TokenHD는 대규모 환각 주석 (hallucination annotations)을 합성하기 위한 확장 가능한 데이터 엔진과, 견고한 모델 학습을 위한 중요도 가중치 전략 (importance-weighted strategy)을 특징으로 하는 학습 레시피 (training recipe)로 구성됩니다. 탐지 성능을 체계적으로 평가하기 위해, 우리는 엄격한 평가 프로토콜 (evaluation protocol)도 제공합니다. TokenHD를 통한 학습을 통해, 우리의 탐지기는 자유 형식의 텍스트 (free-form text)에서 직접 작동하여 환각을 식별하며, 사전에 정의된 단계 분할이나 추가적인 텍스트 재형식화 (reformatting)의 필요성을 제거합니다. 실험 결과에 따르면, 작은 규모의 탐지기 (0.6B)조차 학습 후 상당한 성능 향상을 달성하여 훨씬 더 큰 추론 모델 (예: QwQ-32B)을 능가하며, 탐지 성능은 0.6B에서 8B까지 모델 크기에 따라 일관되게 확장됩니다. 마지막으로, 우리는 우리의 탐지기가 다양한 실제 시나리오에서 잘 일반화될 수 있음을 보여주며, 교차 도메인 일반화 (cross-domain generalization) 능력을 더욱 향상시키기 위한 전략을 탐구합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Large Language Models에서의 확장 가능한 토큰 수준 환각 탐지 (Scalable Token-Level Hallucination

요약

핵심 포인트

댓글