Chain-of-Procedure: 절차적 QA를 위한 계층적 시각-언어 추론

최근 시각-언어 모델 (Vision-Language Models, VLMs)의 발전은 표준적인 이미지-텍스트 작업에서 인상적인 결과를 달성했지만, 시각적 절차 질의응답 (Visual Procedure Question Answering, VP-QA)에 대한 잠재력은 여전히 크게 탐구되지 않은 상태로 남아 있습니다. VP-QA는 사용자가 복잡한 절차의 중간 상태를 나타내는 이미지를 업로드하여 다음 단계의 행동을 질문하는 독특한 과제를 제시합니다. 이 실용적인 작업에 대해 VLMs를 체계적으로 평가하기 위해, 우리는 시각적 절차 추론을 위해 특별히 설계된 새로운 멀티모달 벤치마크인 ProcedureVQA를 제안합니다. 종합적인 분석을 통해, 우리는 현재 VLMs에서 두 가지 결정적인 한계를 식별했습니다: 시각적 상태가 주어졌을 때 구조화된 절차에 대한 불충분한 교차 모달 검색 (Cross-modal Retrieval), 그리고 이미지 시퀀스의 입도 (Granularity)와 텍스트 단계 분해 사이의 불일치입니다. 이러한 문제를 해결하기 위해, 우리는 시각적 단서를 사용하여 관련 지침을 먼저 검색하고, 의미론적 분해 (Semantic Decomposition)를 통해 단계 정제 (Step Refinement)를 수행한 다음, 마지막으로 다음 단계를 생성하는 계층적 추론 프레임워크인 Chain-of-Procedure (CoP)를 제시합니다. 6개의 VLMs에 대한 실험을 통해 CoP의 효과를 입증하였으며, 표준 베이스라인 대비 최대 13%의 절대적 향상을 달성했습니다.

Insights

Chain-of-Procedure: 절차적 QA를 위한 계층적 시각-언어 추론

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인