SurgVLA-Bench: 복강경 수술 로봇을 위한 시각-언어-행동 (VLA) 모델 평가를 향하여
요약
복강경 수술 로봇을 위한 시각-언어-행동(VLA) 모델 평가용 벤치마크인 SurgVLA-Bench를 제안합니다. SurRoL 시뮬레이션을 통해 계층적 작업 분류 체계를 구축하고, 자기회귀 및 흐름 매칭 모델의 성능을 다각도로 비교 분석했습니다.
핵심 포인트
- 수술 로봇 특화 VLA 모델 평가를 위한 최초의 종합 벤치마크 제시
- 자기회귀 모델은 의미론적 이해에, 흐름 매칭 모델은 작업 정밀도에 강점
- 내시경 시야 제한 및 폐쇄 현상이 모델 성능의 주요 병목 요인으로 확인
- 원자적 동작부터 전체 수술 절차까지 아우르는 계층적 평가 프레임워크 구축
시각-언어-행동 (Vision-Language-Action, VLA) 모델은 수술 로봇 분야의 체화된 지능 (Embodied Intelligence)을 위한 유망한 방향을 제시합니다. 일반 로봇 공학을 위한 VLA 벤치마크는 널리 퍼져 있음에도 불구하고, 수술 환경에 특화되어 설계된 표준화된 평가 플랫폼은 여전히 부재한 상태입니다. 이러한 한계를 해결하기 위해, 우리는 복강경 수술 로봇 분야에서 VLA 모델을 평가하기 위한 최초의 종합적인 벤치마크인 SurgVLA-Bench를 선보입니다. SurRoL 시뮬레이션 플랫폼을 활용하여, 우리는 원자적 동작 (Atomic Actions)부터 완전한 수술 절차에 이르는 계층적 작업 분류 체계 (Hierarchical Task Taxonomy)를 구축하였으며, 동작 정확도와 의미론적 일관성 (Semantic Consistency)을 평가하는 다차원적 평가 프레임워크를 보완하였습니다. 이후 우리는 OpenVLA와 같은 자기회귀 (Autoregressive) 모델과 $\pi_{0}$, $\pi_{0.5}$, 그리고 SmolVLA와 같은 흐름 매칭 (Flow Matching) 모델을 포함하는 두 가지 대표적인 패러다임을 체계적으로 평가합니다. 실험 결과, 자기회귀 모델은 의미론적 이해 (Semantic Understanding)에서 뛰어난 경향을 보이는 반면, 흐름 매칭 모델은 종종 더 높은 작업 정밀도 (Task Precision)를 달성하지만 일반화 (Generalization) 측면의 트레이드오프에 직면할 수 있음을 보여줍니다. 그러나 제한된 내시경 시야 (Field of View), 제한된 관찰 각도, 그리고 빈번한 폐쇄 (Occlusions)가 근본적인 물리적 병목 현상으로 지속됨에 따라, 가장 성능이 좋은 모델들조차 여전히 만족스러운 수준에는 미치지 못하고 있습니다. 코드와 데이터는 https://github.com/VCL-HNU/SurgVLA 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기