arXiv논문2026. 06. 15. 11:22

SANA: 방대한 데이터 레이크(Data Lakes) 상의 QA 에이전트에게 중요한 것은 무엇인가?

요약

데이터 레이크 상의 QA 에이전트 성능을 진단하기 위한 새로운 프레임워크인 SANA를 소개합니다. SANA는 에이전트의 실패 원인을 검색, 계획, 데이터 분석, 행동 정책 단계로 세분화하여 분석할 수 있게 합니다.

핵심 포인트

SANA 프레임워크를 통한 EQA 에이전트의 단계별 실패 원인 진단
검색, 계획, 데이터 분석, 행동 정책의 절제(Ablation) 분석 가능
LakeQA 및 KramaBench 벤치마크를 활용한 에이전트 성능 평가
데이터 분석이 EQA 작업의 지속적인 병목 현상임을 확인

데이터 레이크(Data Lakes)에 대한 탐색적 질의응답 (Exploratory question answering, EQA)은 LLM 에이전트가 관련 소스를 발견하고, 검색된 데이터를 분석하며, 중간 결과에 따라 자신의 행동을 조정할 것을 요구합니다. 엔드 투 엔드 (End-to-end) 정확도만으로는 검색, 계획 (Planning), 데이터 분석, 또는 에이전트의 행동 정책 (Action Policy: 다음에 무엇을 할지, 그리고 언제 답변을 제출할지에 대한 결정) 중 어디에서 실패가 발생했는지 구분할 수 없습니다. 우리는 EQA 작업을 골드 소스 시퀀스 (Gold source sequence), 정제된 하위 질문 (Sanitized subquestions), 그리고 실행 기록을 포함하는 런타임 프로필 (Runtime profiles)로 변환하는 진단용 절제 (Ablation) 프레임워크인 SANA (Search Agent Navigation Ablation framework)를 제시합니다. SANA는 이러한 프로필을 사용하여 이상적인 검색, 계획, 데이터 분석 도구를 구축함으로써 각 구성 요소를 절제(Ablation)할 수 있게 하며, 남은 격차는 정책 실패에 대한 진단적 증거가 됩니다. SANA를 재사용 가능한 평가 프레임워크로 설명하기 위해, 우리는 최근의 두 EQA 벤치마크인 LakeQA와 KramaBench를 조정하였으며, 고정된 프롬프트, 예산, 데이터 레이크 및 실행 시간 하에서 경량 및 중간 크기의 에이전트들을 평가했습니다. 두 벤치마크 모두에서 데이터 분석은 지속적인 병목 현상인 반면, 계획은 상대적으로 그렇지 않았습니다. 검색은 LakeQA의 대규모 데이터 레이크 설정에서는 주요 제한 사항이었으나, 소규모인 KramaBench에서는 덜 그러했습니다. 따라서 SANA는 엔드 투 엔드 작업 정확도를 데이터 레이크 에이전트가 실패하는 지점에 대한 진단으로 분해하며, 검색, 계획, 데이터 분석 및 에이전트 설계의 발전 과정을 체계적으로 비교할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SANA: 방대한 데이터 레이크(Data Lakes) 상의 QA 에이전트에게 중요한 것은 무엇인가?

요약

핵심 포인트

댓글