본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:45

동적 시스템 예측을 통한 저비용 LLM 환각 검출

요약

본 논문은 LLM의 환각(hallucination)을 검출하기 위해, LLM을 동적 시스템으로 간주하는 새로운 접근 방식을 제안합니다. 응답 벡터 시퀀스를 고차원 다양체로 투영하고 쿠포만 연산자 이론을 활용하여 사실과 환각 영역의 전이 연산자를 적합시킵니다. 이 방법은 예측 오차 기반의 미분 잔류 점수를 계산하며, 단일 샘플 패스만으로 저비용 고성능 환각 검출을 가능하게 합니다.

핵심 포인트

  • LLM 응답을 동적 시스템으로 모델링하여 환각 검출에 적용합니다.
  • 쿠포만 연산자 이론(Koopman operator theory)을 활용하여 전이 연산자를 적합시키고 예측 오차를 기반으로 점수를 산출합니다.
  • 단일 샘플 패스(single-pass) 처리를 통해 기존의 고비용 2차 샘플링이나 외부 지식 검색 과정을 생략할 수 있습니다.
  • 선호도 인식 교정 메커니즘을 도입하여 다양한 도메인 및 사용자 요구사항에 맞게 분류 임계값을 최적화합니다.

대규모 언어 모델 (LLMs) 은 종종 사실과 다른 내용이지만 그럴듯한 내용을 생성하는 경향이 있으며, 이를 환각 (hallucination) 이라고 합니다. 기존 검출 방법들은 일반적으로 계산 비용이 큰 샘플링 기반의 일관성 검사나 외부 지식 검색에 의존하지만, 우리는 LLM 을 동적 시스템으로 간주하는 새로운 방법을 제안합니다. 임베딩 모델을 통해 LLM 응답을 고차원 다양체로 투영함으로써, 우리는 해당 벡터 시퀀스를 모델의 잠재 상태 공간 동역학의 관측 가능한 실현으로 특징화합니다. 쿠포만 연산자 이론 (Koopman operator theory) 을 활용하여 사실과 환각 두 영역의 전이 연산자를 적합시키고, 각 예측 오차에 기반한 미분 잔류 점수를 정의합니다. 다양한 사용자 요구사항 및 도메인별 민감도를 수용하기 위해, 우리는 소수의 데모스트레이션 집합을 기반으로 분류 임계값을 최적화하는 선호도 인식 교정 메커니즘을 도입합니다. 이 접근법은 단일 샘플 패스를 통해 저비용 환각 검출을 가능하게 하여, 2 차 샘플링이나 외부 거딩 (grounding) 의 필요성을 피합니다. 세 가지 데이터 벤치마크에 걸친 광범위한 테스트는 본 방법이 자원 오버헤드를 줄인 최상위 성능 (state-of-the-art performance) 을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0