본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

HalluWorld: 참조 세계 모델 (Reference World Models)을 통한 환각 (Hallucination) 제어 벤치마크

요약

HalluWorld는 LLM의 환각 문제를 체계적으로 측정하기 위해 명시적인 참조 세계(Reference World)를 기반으로 설계된 확장 가능한 벤치마크입니다. 그리드월드, 체스, 터미널 작업 등 다양한 합성 환경을 통해 모델의 관찰 가능성과 시간적 변화에 따른 환각 양상을 세분화하여 분석합니다. 연구 결과, 프론티어 모델들은 단순 지각적 환각에는 강하지만 다단계 상태 추적 및 인과적 시뮬레이션에서는 여전히 취약함을 보여줍니다.

핵심 포인트

  • 기존 벤치마크의 파편화된 환각 측정 방식을 극복하기 위해 명시적 참조 세계 공식을 도입함
  • 그리드월드, 체스, 터미널 작업 등 제어된 환경을 통해 환각을 세분화된 오류 범주로 분류함
  • 프론티어 모델들이 직접 관찰 정보에는 강하나, 다단계 상태 추적 및 인과적 전방 시뮬레이션에는 취약함을 발견함
  • 확장된 사고(Extended Thinking) 기법이 복잡한 상태 추적 기반의 환각을 완전히 해결하지 못함을 시사함

환각 (Hallucination)은 대규모 언어 모델 (Large Language Models, LLMs)의 핵심적인 실패 모드로 남아 있으나, 기존의 벤치마크들은 요약 (Summarization), 질의응답 (Question Answering), 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 그리고 에이전트 상호작용 (Agentic Interaction)에 걸쳐 일관되지 않게 이를 실행하고 있습니다. 이러한 파편화로 인해 특정 설정에서 효과적인 완화 방법이 다른 맥락에서도 환각을 줄여주는지 여부가 불분명합니다. 현재의 벤치마크들은 인간의 주석 (Human Annotation)과 암기될 수 있는 고정된 참조 (Fixed References)를 요구하거나, 재현하기 어려운 설정에서의 관찰에 의존합니다. 근본적인 원인을 연구하기 위해, 우리는 명시적인 참조 세계 공식화 (Explicit Reference-World Formulation)에 기반한 확장 가능한 벤치마크인 HalluWorld를 소개합니다. 즉, 모델이 이 세계에 대해 거짓인 관찰 가능한 주장 (Observable Claim)을 생성할 때 환각을 일으킨다는 정의입니다. 이러한 관점을 바탕으로, 우리는 참조 세계가 완전히 지정되고, 모델의 시야가 제어되며, 환각 레이블이 자동으로 생성되는 합성 (Synthetic) 및 반합성 (Semi-synthetic) 환경을 구축합니다. HalluWorld는 그리드월드 (Gridworlds), 체스 (Chess), 그리고 현실적인 터미널 작업 (Terminal Tasks)을 아우르며, 세계의 복잡성, 관찰 가능성 (Observability), 시간적 변화 (Temporal Change), 그리고 소스 충돌 정책 (Source-Conflict Policy)의 제어된 변형을 가능하게 하고, 환각을 세분화된 오류 범주로 분리합니다. 우리는 이러한 설정 전반에서 프론티어 (Frontier) 모델과 오픈 웨이트 (Open-weight) 언어 모델들을 평가하였으며, 일관된 패턴을 발견했습니다: 직접 관찰된 정보에 대한 지각적 환각 (Perceptual Hallucination)은 프론티어 모델들에게 거의 해결된 문제인 반면, 다단계 상태 추적 (Multi-step State Tracking)과 인과적 전방 시뮬레이션 (Causal Forward Simulation)은 여전히 어려우며 확장된 사고 (Extended Thinking)로도 일반적으로 해결되지 않습니다. 터미널 설정에서 모델들은 또한 언제 답변을 유보 (Abstain)해야 하는지에 대해서도 어려움을 겪습니다. 조사 유형과 도메인에 따른 실패 프로필의 불균형은 환각이 단일한 능력의 문제가 아니라 서로 다른 실패 모드로부터 발생함을 시사합니다. 우리의 결과는 제어된 참조 세계가 현대 언어 모델의 환각을 측정하고 줄이기 위한 확장 가능하고 재현 가능한 경로를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0