inclusionAI의 Vista 9B/4B 모델

VISTA-9B
VISTA-9B는 Qwen3.5 9B 백본을 기반으로 하며, VISTA: View-Consistent Self-Verified Training for GUI Grounding을 통해 학습된 GUI-grounding 비전-언어 모델입니다.

모델 설명
VISTA-9B는 스크린샷과 자연어 지침을 정규화된 0-1000 이미지 프레임 내의 클릭 좌표로 매핑하는 GUI-grounding 모델입니다.

뷰 일관성 GRPO 학습. VISTA는 동일한 GUI 인스턴스의 타겟 보존 뷰(target-preserving views)를 사용하여 각 GRPO 비교 그룹을 구성하며, 크롭된 뷰 전반에 걸쳐 정확한 좌표 재매핑을 수행합니다. 이를 통해 의미적으로 동등하지만 기하학적으로 다른 스크린샷 하에서의 위치 지정 동작을 노출시킵니다.
자체 검증 교차 뷰 앵커링. 학습 목표는 모델이 생성한 롤아웃(rollouts)이 이미 최대 보상 예측을 생성했을 때만 오라클 형식의 중심점 앵커를 추가하여, 모든 실패 그룹에 대한 무조건적인 모방 없이 짧은 좌표 생성을 안정화합니다.

https://huggingface.co/inclusionAI/VISTA-4B
제출자: /u/jacek2023
[링크] [댓글]

Insights

inclusionAI의 Vista 9B/4B 모델

요약

핵심 포인트

댓글

Claude에게 지속적이고 검색 가능한 뉴스 메모리를 제공하는 MCP 서버를 구축했습니다 (GNews 기반, 월간 다운로드 약 106k)

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세

에이전트의 IP가 변경되어도 연결 상태를 유지하는 방법: 주소가 IP보다 오래 지속되기 위해 필요한 조건

Shein, IPO 앞두고 후기 단계 투자자들을 위한 현금 지급 및 추가 주식 제공 검토

Claude에게 지속적이고 검색 가능한 뉴스 메모리를 제공하는 MCP 서버를 구축했습니다 (GNews 기반, 월간 다운로드 약 106k)

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세

에이전트의 IP가 변경되어도 연결 상태를 유지하는 방법: 주소가 IP보다 오래 지속되기 위해 필요한 조건

Shein, IPO 앞두고 후기 단계 투자자들을 위한 현금 지급 및 추가 주식 제공 검토