HalluWorld: 참조 세계 모델 (Reference World Models)을 통한 환각 (Hallucination) 제어 벤치마크

환각 (Hallucination)은 대규모 언어 모델 (Large Language Models, LLMs)의 핵심적인 실패 모드로 남아 있으나, 기존의 벤치마크들은 요약 (Summarization), 질의응답 (Question Answering), 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 그리고 에이전트 상호작용 (Agentic Interaction)에 걸쳐 일관되지 않게 이를 실행하고 있습니다. 이러한 파편화로 인해 특정 설정에서 효과적인 완화 방법이 다른 맥락에서도 환각을 줄여주는지 여부가 불분명합니다. 현재의 벤치마크들은 인간의 주석 (Human Annotation)과 암기될 수 있는 고정된 참조 (Fixed References)를 요구하거나, 재현하기 어려운 설정에서의 관찰에 의존합니다. 근본적인 원인을 연구하기 위해, 우리는 명시적인 참조 세계 공식화 (Explicit Reference-World Formulation)에 기반한 확장 가능한 벤치마크인 HalluWorld를 소개합니다. 즉, 모델이 이 세계에 대해 거짓인 관찰 가능한 주장 (Observable Claim)을 생성할 때 환각을 일으킨다는 정의입니다. 이러한 관점을 바탕으로, 우리는 참조 세계가 완전히 지정되고, 모델의 시야가 제어되며, 환각 레이블이 자동으로 생성되는 합성 (Synthetic) 및 반합성 (Semi-synthetic) 환경을 구축합니다. HalluWorld는 그리드월드 (Gridworlds), 체스 (Chess), 그리고 현실적인 터미널 작업 (Terminal Tasks)을 아우르며, 세계의 복잡성, 관찰 가능성 (Observability), 시간적 변화 (Temporal Change), 그리고 소스 충돌 정책 (Source-Conflict Policy)의 제어된 변형을 가능하게 하고, 환각을 세분화된 오류 범주로 분리합니다. 우리는 이러한 설정 전반에서 프론티어 (Frontier) 모델과 오픈 웨이트 (Open-weight) 언어 모델들을 평가하였으며, 일관된 패턴을 발견했습니다: 직접 관찰된 정보에 대한 지각적 환각 (Perceptual Hallucination)은 프론티어 모델들에게 거의 해결된 문제인 반면, 다단계 상태 추적 (Multi-step State Tracking)과 인과적 전방 시뮬레이션 (Causal Forward Simulation)은 여전히 어려우며 확장된 사고 (Extended Thinking)로도 일반적으로 해결되지 않습니다. 터미널 설정에서 모델들은 또한 언제 답변을 유보 (Abstain)해야 하는지에 대해서도 어려움을 겪습니다. 조사 유형과 도메인에 따른 실패 프로필의 불균형은 환각이 단일한 능력의 문제가 아니라 서로 다른 실패 모드로부터 발생함을 시사합니다. 우리의 결과는 제어된 참조 세계가 현대 언어 모델의 환각을 측정하고 줄이기 위한 확장 가능하고 재현 가능한 경로를 제공함을 보여줍니다.

Insights

HalluWorld: 참조 세계 모델 (Reference World Models)을 통한 환각 (Hallucination) 제어 벤치마크

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어