본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 16:09

Chain-of-Procedure: 절차적 QA를 위한 계층적 시각-언어 추론

요약

본 논문은 복잡한 절차의 중간 이미지를 기반으로 다음 행동 단계를 추론하는 시각적 절차 질의응답(VP-QA) 과제를 다룹니다. 이를 위해 새로운 멀티모달 벤치마크인 ProcedureVQA를 제안하고, 현재 VLM이 가진 교차 모달 검색 및 단계 분해의 한계를 분석했습니다. 이 문제를 해결하기 위해 시각적 단서 기반 검색, 의미론적 분해, 다음 단계 생성을 결합한 계층적 추론 프레임워크인 Chain-of-Procedure (CoP)를 제시하고 그 성능을 입증했습니다.

핵심 포인트

  • 시각적 절차 질의응답(VP-QA)은 복잡한 절차의 중간 이미지를 이용해 다음 행동 단계를 추론하는 실용적인 과제이다.
  • 새로운 벤치마크인 ProcedureVQA를 통해 VLM의 시각적 절차 추론 능력을 체계적으로 평가할 수 있게 되었다.
  • 기존 VLM은 시각적 상태에 대한 구조화된 절차 검색과 이미지 시퀀스 단계 분해 간의 불일치를 보이는 한계를 가진다.
  • 제안된 Chain-of-Procedure (CoP)는 계층적 추론 프레임워크로, 시각적 단서 기반 검색, 의미론적 분해, 다음 단계 생성을 순차적으로 수행하여 성능을 향상시킨다.

최근 시각-언어 모델 (Vision-Language Models, VLMs)의 발전은 표준적인 이미지-텍스트 작업에서 인상적인 결과를 달성했지만, 시각적 절차 질의응답 (Visual Procedure Question Answering, VP-QA)에 대한 잠재력은 여전히 크게 탐구되지 않은 상태로 남아 있습니다. VP-QA는 사용자가 복잡한 절차의 중간 상태를 나타내는 이미지를 업로드하여 다음 단계의 행동을 질문하는 독특한 과제를 제시합니다. 이 실용적인 작업에 대해 VLMs를 체계적으로 평가하기 위해, 우리는 시각적 절차 추론을 위해 특별히 설계된 새로운 멀티모달 벤치마크인 ProcedureVQA를 제안합니다. 종합적인 분석을 통해, 우리는 현재 VLMs에서 두 가지 결정적인 한계를 식별했습니다: 시각적 상태가 주어졌을 때 구조화된 절차에 대한 불충분한 교차 모달 검색 (Cross-modal Retrieval), 그리고 이미지 시퀀스의 입도 (Granularity)와 텍스트 단계 분해 사이의 불일치입니다. 이러한 문제를 해결하기 위해, 우리는 시각적 단서를 사용하여 관련 지침을 먼저 검색하고, 의미론적 분해 (Semantic Decomposition)를 통해 단계 정제 (Step Refinement)를 수행한 다음, 마지막으로 다음 단계를 생성하는 계층적 추론 프레임워크인 Chain-of-Procedure (CoP)를 제시합니다. 6개의 VLMs에 대한 실험을 통해 CoP의 효과를 입증하였으며, 표준 베이스라인 대비 최대 13%의 절대적 향상을 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0