DRIP-R: 소매(Retail) 도메인에서 실제 정책 모호성 하의 의사결정 및 추론을 위한 벤치마크
요약
DRIP-R은 실제 소매(retail) 도메인의 정책적 모호성을 활용하여 LLM 에이전트의 의사결정 및 추론 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 기존 벤치마크들이 명확하게 정의된 정책을 가정하는 것과 달리, DRIP-R은 단 하나의 정답이 존재하지 않는 모호한 시나리오를 제공합니다. 이 벤치마크는 반환(return) 시나리오와 현실적인 고객 페르소나, 도구 호출 기능을 포함하며, 다중 심사위원 평가 프레임워크를 통해 정책 준수, 대화 품질 등 복합적인 측면을 평가합니다.
핵심 포인트
- LLM 에이전트가 실세계의 모호한(ambiguous) 정책 환경에서 작동하는 것이 중요해지고 있다.
- 기존 LLM 벤치마크들은 대부분 명확하게 정의된 정책만을 가정하여 실제 환경과의 평가 격차가 존재한다.
- DRIP-R은 소매 도메인의 '반환' 시나리오를 중심으로, 단일 정답이 없는 모호한 의사결정 과정을 체계적으로 테스트한다.
- 평가 프레임워크는 정책 준수, 대화 품질, 행동 정렬 등 다차원적인 관점에서 모델의 성능을 심층적으로 측정한다.
LLM 기반 에이전트들은 실세계 도메인의 일상적이지만 중대한 작업에 점점 더 많이 배치되고 있으며, 이들의 행동은 여러 유효한 해석을 허용하는 본질적으로 모호한 도메인 정책에 의해 지배됩니다. 실제 환경에서 이러한 모호성이 만연함에도 불구하고, 기존 에이전트 벤치마크들은 대체로 모호하지 않고 잘 명시된 정책을 가정하고 있어 중요한 평가 격차를 남기고 있습니다. 우리는 DRIP-R이라는 벤치마크를 소개합니다. 이는 실제 소매(retail) 정책의 모호성을 체계적으로 활용하여 단 하나의 정답 해소가 존재하지 않는 시나리오를 구성합니다. DRIP-R은 정책이 모호한 반환(return) 시나리오로 구성된 엄선된 세트와 현실적인 고객 페르소나, 도구 호출 기능이 있는 풀 듀플렉스 대화 시뮬레이션, 그리고 정책 준수, 대화 품질, 행동 정렬, 해소 품질을 다루는 다중 심사위원 평가 프레임워크로 구성됩니다. 우리의 실험은 최첨단 모델들이 동일한 정책 모호성 시나리오에 대해 근본적으로 의견이 다르다는 것을 보여주었으며, 이는 모호성이 LLM 의사결정 과정에 진정한 그리고 체계적인 과제를 제기함을 확인시켜 줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기