arXiv논문2026. 06. 03. 11:04

이상적인 지시를 넘어: 실제 상호작용 환경에서의 LLM 평가를 위한 포괄적 프레임워크

요약

기존 LLM 벤치마크가 실제 사용자의 모호함과 비협조적 행동을 반영하지 못하는 한계를 극복하기 위해 RUT-Bench를 제안합니다. 19개 모델을 테스트한 결과, 복잡한 비이상적 시나리오에서 모든 모델의 성공률이 40% 미만으로 나타났습니다.

핵심 포인트

실제 사용자 시나리오를 반영한 RUT-Bench 제안
모호함과 비협조적 행동을 포함한 고충실도 시뮬레이션 지원
19개 주요 LLM 테스트 결과, 복잡한 상황에서 성능 저하 확인
대부분의 모델이 비이상적 입력 시 성공률 40% 미만 기록

대규모 언어 모델 (LLMs)의 도구 사용 (tool-use) 능력은 크게 발전했음에도 불구하고, 기존의 평가 벤치마크 (benchmarks)들은 실제 세계의 시나리오와 완전히 일치하는 데 어려움을 겪고 있습니다. 이러한 벤치마크들은 대부분 시뮬레이션된 이상적인 사용자 가정을 기반으로 하며, 경험 중심의 평가가 부족합니다. 이러한 한계점들은 실제 사용자의 특징인 모호함, 비협조적 행동, 그리고 변화하는 의도를 반영하지 못합니다. 이 간극을 메우기 위해, 우리는 다양한 실제 사용자 도구 호출 (Real-world User Tool calling) 시나리오 하에서 LLMs를 평가하기 위해 설계된 전용 벤치마크인 RUT-Bench를 제안합니다. RUT-Bench는 단일 턴 및 다중 턴 대화 전반에 걸쳐 이상적인 합리적 패턴과 이질적인 비이상적 행동을 모두 아우르는 고충실도 (high-fidelity) 시뮬레이션을 지원합니다. 우리는 이 벤치마크를 사용하여 널리 채택된 19개의 오픈 소스 및 독점 LLMs에 대해 포괄적인 평가를 수행했습니다. 실험 결과, 테스트된 어떤 LLM도 전체 성공률이 40%를 넘지 못했으며, 거의 모든 모델이 더 복잡한 비이상적 사용자 입력에 직면했을 때 눈에 띄는 성능 저하를 경험하는 것으로 나타났습니다. 우리의 코드와 데이터는 https://github.com/TorresYangX/RUT-Bench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

이상적인 지시를 넘어: 실제 상호작용 환경에서의 LLM 평가를 위한 포괄적 프레임워크

요약

핵심 포인트

댓글