arXiv논문2026. 06. 10. 11:36

PhantomBench: 언어 모델의 비존재적 위협에 대한 벤치마킹

요약

언어 모델의 환각 현상을 측정하기 위해 6만 개 이상의 비존재 용어를 활용한 대규모 벤치마크 PhantomBench를 제안합니다. 21개 모델을 평가한 결과, 최첨단 모델조차 비존재 개념에 대해 답변을 자제하지 못하는 높은 환각률을 보였습니다.

핵심 포인트

비존재 엔티티 6만 개를 포함한 최초의 대규모 벤치마크 PhantomBench 공개
최첨단 모델들도 비존재 개념에 대해 높은 환각률을 보임
모델의 지식 한계 인식 능력을 평가하는 대리 지표로 활용 가능
연구자를 위한 확장 가능한 비존재 개념 생성 파이프라인 제공

언어 모델 (LMs)이 사실에 근거하지 않은 응답을 생성하는 환각 (Hallucinations) 현상은 사용자들이 모델을 맹목적으로 신뢰하는 경향이 있기 때문에 심각한 위험을 초래합니다. 이는 모델의 이러한 행동이 상당한 피해로 이어질 수 있는 고위험 (high-stakes) 영역에서 특히 우려되는 부분입니다. 환각을 이해하는 데 있어 주목할 만한 진전이 있었음에도 불구하고, 이러한 모델들이 자신의 지식 한계를 얼마나 신뢰성 있게 인식할 수 있는지는 여전히 불분명합니다. 우리는 다양한 도메인에 걸친 실제 개념으로부터 파생된 6만 개 이상의 비존재 용어 및 엔티티 (entities)로 구성된 최초의 대규모 벤치마크인 PhantomBench를 소개합니다. 우리는 이 벤치마크를 사용하여 다양한 유형과 크기를 가진 총 21개의 모델을 평가합니다. 우리는 전반적으로 경악스러운 환각률 (일부 사례에서는 평균 86.7%에 달하는 비율)을 보여주며, 최첨단 모델 (frontier models)조차도 특히 입력값이 해당 개념의 존재를 전제할 때 비존재 개념에 대해 답변을 자제하는 데 놀랍게도 실패한다는 점을 확인했습니다. 이어서 우리는 PhantomBench가 모델이 환각을 일으키기 쉬운 희귀 개념 (rare concepts)에 대한 모델 행동을 연구하는 대리 지표 (proxy)로 활용될 수 있음을 보여줍니다. 또한 우리는 연구자와 실무자의 특정 요구에 맞춘 비존재 개념의 확장 가능한 생성을 가능하게 하는 PhantomBench 구축 파이프라인을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PhantomBench: 언어 모델의 비존재적 위협에 대한 벤치마킹

요약

핵심 포인트

댓글