DRFLOW: 개인화된 워크플로우 예측을 위한 딥 리서치 (Deep Research) 벤치마크
요약
에이전트가 복잡한 업무를 수행하기 위해 필요한 개인화된 워크플로우를 예측하고 평가하는 새로운 벤치마크 DRFLOW를 소개합니다. 5개 도메인과 1,246개의 참조 단계를 포함하며, 워크플로우 지향적 에이전트인 DRFA를 통해 현재 기술의 한계와 개선 방향을 제시합니다.
핵심 포인트
- 단순 요약을 넘어 구체적인 행동 단계(workflow)를 예측하는 벤치마크 제안
- 사실적 근거, 단계 복구, 개인화 등 7가지 진단 지표 정의
- 5개 도메인, 100개 작업, 3,900개 이상의 출처를 포함한 대규모 데이터셋
- DRFLOW-Agent(DRFA)를 통한 워크플로우 예측 성능 평가 및 한계 확인
딥 리서치 (Deep Research, DR) 시스템은 복잡한 정보 탐색 작업을 위해 점점 더 많이 사용되고 있지만, 기존 연구들은 주로 보고서와 요약문을 생성하는 데 집중되어 있습니다. 이와 대조적으로, 많은 기업 업무는 에이전트가 일련의 행동 단계인 구체적인 워크플로우 (workflow)를 식별할 것을 요구합니다. 예를 들어, 예산 편성 정책을 요약하는 대신, 에이전트는 "고정된 예산 내에서 새로운 인력을 어떻게 요청하나요?"와 같은 질문에 답하기 위해 필요한 단계들을 결정할 수 있어야 합니다. 따라서 우리는 이질적인 출처로부터 에이전트가 예측한 개인화된 워크플로우를 평가하기 위한 벤치마크인 DRFLOW를 소개합니다. 각 작업은 에이전트가 흩어져 있는 출처로부터 관련 증거를 식별한 다음, 그 증거를 사용하여 사용자의 작업에 대한 올바른 행동 단계 시퀀스를 예측할 것을 요구합니다. DRFLOW는 5개 도메인에 걸쳐 100개의 작업을 포함하며, 3,900개 이상의 출처에 근거한 1,246개의 참조 워크플로우 단계를 포함합니다. 우리는 사실적 근거 (factual grounding), 단계 복구 (step recovery), 구조적 순서 (structural ordering), 조건 해결 (condition resolution), 그리고 개인화 (personalization)를 다루는 7가지 진단 지표를 정의합니다. 나아가 우리는 개인화된 워크플로우를 예측하기 위한 워크플로우 지향적 참조 에이전트인 DRFLOW-Agent (DRFA)를 제시합니다. 우리는 DRFA가 강력한 베이스라인 에이전트들보다 개선되었음에도 불구하고 (평균 F1 스코어 기준 최대 10.02%), 이러한 워크플로우 지표 전반에 걸쳐 여전히 상당한 개선의 여지가 있음을 보여주며, 이는 완전하고 정확한 개인화된 워크플로우를 예측하는 것이 딥 리서치 분야에서 여전히 도전적인 과제로 남아 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기