arXiv논문2026. 06. 19. 11:55

AgentFinVQA: 감사 가능한 금융 차트 QA를 위한 배포 가능한 멀티 에이전트 파이프라인

요약

금융 차트 QA의 정확성과 감사 가능성을 동시에 해결하기 위한 멀티 에이전트 파이프라인 AgentFinVQA를 제안합니다. 계획, OCR, 검증 등 단계별 과정을 기록하여 온프레미스 환경에서도 신뢰할 수 있는 답변을 제공합니다.

핵심 포인트

감사 가능성을 위한 단계별 모델 평가 패킷(MEP) 도입
온프레미스 배포가 가능한 오픈 웨이트 모델 기반 설계
FinMME 벤치마크에서 독점 모델 대비 높은 성능 입증
검증기를 통한 신뢰 신호 생성 및 인간 참여형 검토 지원

규제 환경에서의 금융 차트 질의응답(Question Answering, QA)은 정확성 그 이상의 것을 요구합니다. 실무자들은 행동에 옮기기 전에 어떤 답변을 신뢰할 수 있는지 알아야 하며, 많은 기관은 고객 데이터를 외부 모델 제공업체로 전송할 수 없습니다. 그러나 기존의 차트-QA 에이전트들은 정확성에만 집중하며 불투명하고, 대부분 독점적 API 접근을 가정합니다. 저희가 알기로는, 상당한 정확도 저하 없이 감사 가능성(Auditability)과 온프레미스(On-premise) 배포 가능성을 결합한 사례는 없습니다. 저희는 각 쿼리를 계획(Planning), OCR, 범례 접지(Legend Grounding), 시각적 검사(Visual Inspection), 검증(Verification)으로 분해하고, 샘플당 추적 가능한 모델 평가 패킷(Model Evaluation Packet, MEP)에 모든 단계를 기록하는 멀티 에이전트 파이프라인인 AgentFinVQA를 제시합니다. FinMME에서 AgentFinVQA는 독점 백본(Gemini-3 Flash; 71.24% vs. 63.56%, McNemar $p \approx 1.1 \times 10^{-16}$)을 사용하는 주요 백본 매칭 제로샷(Zero-shot) 베이스라인보다 $+7.68$ pp 향상되었으며, 로컬에서 서비스되는 오픈 웨이트(Open-weights) Qwen3.6-27B-FP8 대비 $+4.84$ pp 향상되었습니다. 검증기(Verifier)의 판결은 유용한 신뢰 신호(Confidence Signal)로도 작용하여(확정된 답변 vs. 수정된 답변에 대한 정확도 68.2% vs. 55.6%), 인간 참여형(Human-in-the-loop) 검토 라우팅을 가능하게 합니다. 오류 분석에 따르면 질문 오해, 범례 혼동 및 추출 오류가 실패 원인의 거의 3분의 2를 차지하며, 이는 검증기에 의해 가장 적게 탐지되는 범주로 나타나 향후 연구를 위한 명확한 방향을 제시합니다. 이러한 결과들을 종합하면, 감사 가능한 온프레미스 금융 차트 QA가 실용적이며, 오픈 웨이트 시스템이 완전한 데이터 거주성(Data Residency)을 보장하면서도 정확도 이득의 대부분을 유지한다는 것을 보여줍니다. 저희는 재현 가능한 평가를 지원하기 위해 코드를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AgentFinVQA: 감사 가능한 금융 차트 QA를 위한 배포 가능한 멀티 에이전트 파이프라인

요약

핵심 포인트

댓글