본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 13. 17:32

inclusionAI의 Vista 9B/4B 모델

요약

InclusionAI가 Qwen3.5 9B 백본을 기반으로 GUI-grounding 비전-언어 모델인 VISTA-9B와 VISTA-4B를 공개했습니다. 이 모델은 스크린샷과 자연어 지침을 정규화된 좌표로 매핑하는 것이 목표입니다. 특히, '뷰 일관성 GRPO 학습'과 '자체 검증 교차 뷰 앵커링' 기법을 통해 정확한 위치 지정 능력을 강화했습니다.

핵심 포인트

  • VISTA-9B는 Qwen3.5 9B를 기반으로 하는 GUI-grounding 모델입니다.
  • 스크린샷과 자연어 지침을 좌표로 매핑하는 것이 주요 기능입니다.
  • 뷰 일관성 GRPO 학습으로 정확한 위치 지정 능력을 확보했습니다.
  • 자체 검증 교차 뷰 앵커링으로 안정적인 좌표 생성을 목표합니다.

VISTA-9B
VISTA-9B는 Qwen3.5 9B 백본을 기반으로 하며, VISTA: View-Consistent Self-Verified Training for GUI Grounding을 통해 학습된 GUI-grounding 비전-언어 모델입니다.

모델 설명
VISTA-9B는 스크린샷과 자연어 지침을 정규화된 0-1000 이미지 프레임 내의 클릭 좌표로 매핑하는 GUI-grounding 모델입니다.

뷰 일관성 GRPO 학습. VISTA는 동일한 GUI 인스턴스의 타겟 보존 뷰(target-preserving views)를 사용하여 각 GRPO 비교 그룹을 구성하며, 크롭된 뷰 전반에 걸쳐 정확한 좌표 재매핑을 수행합니다. 이를 통해 의미적으로 동등하지만 기하학적으로 다른 스크린샷 하에서의 위치 지정 동작을 노출시킵니다.
자체 검증 교차 뷰 앵커링. 학습 목표는 모델이 생성한 롤아웃(rollouts)이 이미 최대 보상 예측을 생성했을 때만 오라클 형식의 중심점 앵커를 추가하여, 모든 실패 그룹에 대한 무조건적인 모방 없이 짧은 좌표 생성을 안정화합니다.

https://huggingface.co/inclusionAI/VISTA-4B
제출자: /u/jacek2023
[링크] [댓글]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0