arXiv논문2026. 06. 08. 11:20

주사위 놀이를 할 때 LLM은 얼마나 신뢰할 수 있는가?

요약

이 연구는 LLM의 이산 확률 문제 해결 능력을 벤치마킹하여 확률적 추론의 한계를 조사합니다. 표준 문제에서는 높은 정확도를 보이지만, 반직관적인 문제나 변형된 문제에서는 성능이 급격히 하락함을 확인했습니다.

핵심 포인트

표준 문제 정확도 0.96 대비 반직관적 문제 정확도 0.59로 급락
문제 형식이 변형될 경우 성능이 20% 이상 하락하는 토큰 편향 발견
오도하는 프롬프트 포함 시 성능이 최대 34%까지 감소
현재 LLM은 고등 수학은 수행하나 진정한 확률적 추론자는 아님

우리는 이산 확률 문제 (discrete probability problems)에 대한 통제된 벤치마킹 연구를 통해 대규모 언어 모델 (LLMs)의 확률적 추론 능력을 조사합니다. 우리는 휴리스틱 추론 (heuristic reasoning)을 유발하도록 설계된 표준 연습 문제 세트와 반직관적 연습 문제 세트라는 두 가지 데이터셋을 구축하였으며, Chain-of-Thought (CoT) 프롬프팅을 사용한 경우와 사용하지 않은 경우를 각각 테스트하여 8개의 최첨단 (state-of-the-art) 모델을 평가했습니다. 모델들은 표준 문제에서는 평균 0.96의 정확도를 달성했지만, 반직관적인 문제에서는 0.59에 그쳤습니다. 우리는 더 나아가 토큰 편향 (token bias)에 대한 실증적 증거를 제공합니다. 즉, 표준적인 공식 (canonical formulations)이 변형된 형태 (disguised variants)로 대체될 때 성능이 20% 이상 하락합니다. 프롬프트에 오도하는 제안 (misleading suggestions)을 포함할 경우 성능은 최대 34%까지 감소하며, 면역력을 가진 모델은 없었습니다. 종합적으로, 보고된 연구 결과는 현재의 LLM이 고등 수학 문제에서 성공을 거두었음에도 불구하고, 아직 진정한 확률적 추론가 (probabilistic reasoners)는 아니라는 점을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

주사위 놀이를 할 때 LLM은 얼마나 신뢰할 수 있는가?

요약

핵심 포인트

댓글