ASCII Art를 활용한 LLM의 VLA 컨트롤러 변환
요약
ASCII Art를 활용해 시각적 관찰을 텍스트로 변환함으로써, 텍스트 전용 LLM을 VLA(Vision-Language-Action) 컨트롤러로 활용하는 연구를 소개합니다. 이 방식은 기존 LLM 스택을 유지하면서도 효율적인 시각 상태 조건화와 액션 생성을 가능하게 합니다.
핵심 포인트
- ASCII 렌더링을 통해 시각 정보를 텍스트로 변환하는 'ASCII-as-vision' 인터페이스 제안
- 텍스트 전용 LLM을 VLA 스타일의 컨트롤러로 적응 가능함을 입증
- 시뮬레이션 및 물리적 매니퓰레이터 2D 조작 벤치마크에서 성능 확인
- 기존 VLA 파이프라인을 보완하는 가볍고 해석 가능한 모달리티 브리지 역할
Vision--Language--Action (VLA) 컨트롤러는 대규모 데이터와 연산량을 요구하는 멀티모달 백본 (multimodal backbones)에 의존하여, 시각-언어 모델 (VLMs)을 액션 감독 (action supervision)으로 확장함으로써 구축되는 경우가 많습니다. 본 연구에서는 시각적 관찰 (visual observations)을 ASCII 표현을 사용하여 텍스트 입력으로 렌더링할 때, 텍스트 전용 대규모 언어 모델 (LLM)이 VLA 스타일의 컨트롤러로 적응될 수 있음을 입증합니다. 이러한 '시각으로서의 ASCII (ASCII-as-vision)' 인터페이스는 기존의 LLM 학습 및 배포 스택이 시각적 상태 (visual state)를 효율적으로 조건화하고, 자연어 지시 (natural-language instructions)를 따르며, 제약된 실행 가능한 액션 (executable actions)을 생성할 수 있게 합니다. 우리는 계획 기반 교사 (planning-based teacher)로부터 얻은 전문가 시연 (expert demonstrations)과 반복적 개선을 위한 DAgger를 모두 사용하여, 다양한 모델 제품군과 규모에 걸쳐 여러 LLM 및 VLM을 미세 조정 (fine-tune)하고 비교합니다. 시뮬레이션과 물리적 매니퓰레이터 (physical manipulator) 모두에서의 2D 조작 벤치마크 (2D manipulation benchmark)에서, 결과물인 컨트롤러는 작업 관련 엔티티 (task-relevant entities)를 식별하고 실행 가능한 액션 시퀀스 (action sequences)를 계획할 수 있습니다. 우리의 결과는 ASCII 렌더링이 이미지에서 텍스트로 이어지는 가볍고 해석 가능한 모달리티 브리지 (modality bridge) 역할을 하여 기존의 VLA 파이프라인을 보완할 수 있으며, 텍스트 전용 백본 (text-only backbones)을 이용한 VLA 연구의 새로운 방향을 제시함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기