
Gemini 2.5 Computer Use 모델 출시: UI 상호작용 에이전트 시대 개막
요약
Google DeepMind가 새로운 전문 모델인 Gemini 2.5 Computer Use를 발표했습니다. 이 모델은 Gemini 2.5 Pro의 시각 이해 및 추론 능력을 기반으로 하며, 사용자가 웹사이트나 애플리케이션의 사용자 인터페이스(UI)와 직접 상호작용하는 에이전트 구축을 가능하게 합니다. 기존 API 방식으로는 처리하기 어려웠던 양식 작성, 드롭다운 메뉴 조작 등 인간과 유사한 복잡한 디지털 작업을 수행할 수 있게 되었습니다. 이 모델은 반복적인 루프를 통해 스크린샷과 사용자 요청을 분석하고 클릭, 타이핑 등의 함수(
핵심 포인트
- Gemini 2.5 Computer Use는 UI 상호작용에 특화된 전문 에이전트 모델입니다.
- 웹/모바일 환경에서 양식 작성, 요소 조작 등 인간과 유사한 복잡한 작업을 수행할 수 있습니다.
- 새로운 `computer_use` 도구를 통해 요청-스크린샷-액션의 반복 루프(loop)로 작동합니다.
- 성능이 뛰어나고 지연 시간이 낮으며, 안전장치(safety guardrails)가 내장되어 배포에 용이합니다.
Google DeepMind는 웹 및 모바일 UI 상호작용에 특화된 새로운 전문 모델인 Gemini 2.5 Computer Use를 공개했습니다. 이 모델은 Gemini 2.5 Pro의 강력한 시각 이해력과 추론 능력을 활용하여, 기존 API만으로는 처리하기 어려웠던 복잡한 디지털 작업을 수행하는 에이전트 구축을 가능하게 합니다.
작동 원리 및 특징:
이 모델은 사용자의 요청(Prompt), 현재 환경의 스크린샷, 그리고 이전 행동 기록을 입력받아 작동합니다. 개발자는 Gemini API 내의 computer_use 도구를 통해 이 기능을 활용할 수 있습니다. 핵심은 반복적인 루프(loop) 구조입니다. 모델은 입력을 분석하여 클릭이나 타이핑 같은 UI 액션 함수를 생성하고, 클라이언트 코드가 이를 실행합니다. 이후 새로운 스크린샷을 다시 모델에 전달하며 작업을 완료하거나 오류가 발생할 때까지 이 과정을 반복합니다.
성능 및 안전성:
Gemini 2.5 Computer Use는 여러 웹 및 모바일 제어 벤치마크에서 최고 성능과 낮은 지연 시간(latency)을 입증했습니다. 또한, AI 에이전트가 수행할 수 있는 잠재적 위험(예: 보안 침해, 시스템 무결성 손상)에 대비하여 안전장치(safety guardrails)를 내장하고 있습니다. 개발자는 단계별 안전 서비스(Per-step safety service)나 사용자 확인 요청 등의 추가 통제 기능을 통해 모델의 사용을 더욱 책임감 있게 관리할 수 있습니다.
활용 분야:
이 모델은 웹 브라우저 환경에 최적화되어 있으며, 모바일 UI 제어에서도 강력한 잠재력을 보여줍니다. 이미 UI 테스트 자동화, 워크플로우 자동화 등 다양한 실무 환경에서 도입되고 있어, 소프트웨어 개발 속도를 획기적으로 높일 것으로 기대됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기