VeriTrip: 비정형 웹 코퍼스 기반 여행 계획 에이전트를 위한 검증 가능한 벤치마크
요약
자율 여행 계획 에이전트의 신뢰성을 평가하기 위한 새로운 벤치마크 VeriTrip을 제안합니다. 비정형 멀티모달 웹 데이터를 활용하여 정보 노이즈와 사실적 모순을 처리하는 능력을 검증하며, MLLM의 검색-추론 트레이드오프를 분석합니다.
핵심 포인트
- 비정형 멀티모달 웹 코퍼스 기반의 검증 가능한 벤치마크 VeriTrip 소개
- 멀티모달 검색 베이스(MRB)를 통한 증거 기반 추론 능력 평가
- 셀 단위 검증 프로토콜을 통한 사실적 신뢰성 정량화
- 자율 검색의 인지적 부하가 지시 사항 유지 능력을 저하시킴을 발견
기존의 벤치마크들은 API 중심의 패러다임을 구축함으로써 여행 계획 에이전트 (travel planning agents)를 위한 토대를 마련했습니다. 그러나 자율 에이전트 (Autonomous Agents)의 능력이 계속해서 발전함에 따라, 이들에 대한 평가는 단순한 도구 실행을 넘어 개방형 웹 (open web)의 내재된 복잡성을 처리하는 방향으로 진화해야 합니다. 현재의 벤치마크들은 핵심적인 인지적 장애물들을 우회하고 있습니다. 즉, 정보 노이즈 (information noise)를 고려하지 못하고, 다중 소스의 사실적 모순 (multi-source factual contradictions)을 무시하며, 시각적 인지 (visual perception)를 논리적 계획 (logical planning)에 접목해야 하는 필요성을 간과하고 있습니다. 우리는 에이전트의 강건성 (robustness)과 신뢰성 (reliability)에 대한 증가하는 요구를 충족하기 위해 설계된 검증 가능한 벤치마크인 VeriTrip을 소개합니다. VeriTrip은 평가의 초점을 비정형 멀티모달 웹 코퍼스 (unstructured multimodal web corpora)에 대한 증거 기반 추론 (evidence-grounded reasoning)으로 전환합니다. 이는 실제 소스에서 파생된 멀티모달 검색 베이스 (Multimodal Retrieval Base, MRB)를 구축하여, 에이전트가 이질적인 데이터 전반에 걸쳐 쿼리 (queries)를 자율적으로 조율하도록 강제합니다. 동기화된 검증 가능한 지식 베이스 (Verifiable Knowledge Base, VKB)는 사실적 신뢰성을 정밀하게 정량화하는 셀 단위 검증 프로토콜 (cell-wise verification protocol)을 가능하게 하여, 체계적인 추론 실패와 파라미터적 환각 (parametric hallucinations)을 구분합니다. 주요 MLLM (Multimodal Large Language Models)에 대한 우리의 평가 결과, 중요한 extit{검색-추론 트레이드오프 (retrieval-reasoning trade-off)}가 드러났습니다. 즉, 자율적 검색의 인지적 부하 (cognitive load)가 지시 사항 유지 (instruction retention) 능력을 현저히 저하시킵니다. VeriTrip은 제약이 없는 멀티모달 환경에서 작동할 수 있는 차세대 계획 에이전트에게 필요한 엄격한 토대를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기