Gemini 3.5 Flash가 이제 당신의 컴퓨터를 제어할 수 있습니다: DeepMind의 가장 대담한 행보
요약
Google DeepMind가 Gemini 3.5 Flash에 컴퓨터 사용(computer use) 기능을 추가했습니다. 이 모델은 화면을 이해하고 커서 이동, 클릭, 타이핑 등을 수행하며 자율적인 데스크톱 자동화 에이전트 역할을 수행합니다.
핵심 포인트
- 네이티브 GUI 상호작용을 통해 데스크톱 및 브라우저 제어 가능
- 다단계 워크플로 계획 및 오류 발생 시 자기 수정 기능 탑재
- 기존 모델과 동일한 가격으로 Gemini API를 통해 접근 가능
- 복잡한 웹 작업에서 약 92%의 높은 성공률 기록
Google DeepMind가 방금 폭탄 선언을 했습니다: Gemini 3.5 Flash가 이제 컴퓨터 사용 (computer use) 능력을 갖추게 되었으며, 이는 들리는 것만큼이나 게임 체인저가 될 것입니다.
2026년 6월 말에 발표된 이번 업데이트는 이미 번개처럼 빠른 멀티모달 (multimodal) 모델이었던 것을, 자연어 지시를 통해 사용자의 화면을 보고, 커서를 움직이고, 버튼을 클릭하고, 텍스트를 입력하며, 애플리케이션을 탐색할 수 있는 자율 에이전트 (autonomous agent)로 변모시킵니다.
새로운 기능
핵심적인 추가 사항은 **네이티브 GUI 상호작용 (native GUI interaction)**입니다. Gemini 3.5 Flash는 이제 다음을 수행할 수 있습니다:
- 데스크톱 전체, 브라우저 탭 및 애플리케이션 창을 보고 이해하기
- 다단계 워크플로 (multi-step workflows) 계획 — 예: "내 이메일을 열고, Acme Corp에서 보낸 송장을 찾아, PDF를 다운로드한 다음, Q3 폴더에 저장해줘"
- 동작 실행 — 클릭, 스크롤, 타이핑, 드래그 및 양식 작성 완료
- 예상치 못한 팝업이나 오류 상태에 직면했을 때 자기 수정 (Self-correct)
이것은 별도의 "에이전트 모드"나 실험적인 API 엔드포인트가 아닙니다. 모델에 직접 내장되어 있습니다.
이것이 중요한 이유
다른 모든 프런티어 연구소(frontier lab)들은 에이전트형 AI (agentic AI)를 향해 경주해 왔습니다 — OpenAI는 Operator로, Anthropic은 Claude의 컴퓨터 사용 기능으로, 그리고 다양한 스타트업들은 브라우저 자동화 도구로 경쟁하고 있습니다. DeepMind는 이를 별도로 덧붙여진 기능이 아닌 핵심 모델 기능으로 만듦으로써 경쟁자들을 단숨에 앞질렀습니다.
속도가 결정적인 차별점입니다. Gemini 3.5 Flash는 이미 멀티모달 작업에서 1초 미만의 지연 시간 (latency)으로 잘 알려져 있었습니다. 그 속도에 컴퓨터 사용 기능을 추가한다는 것은, 지연이 발생하는 스크립트가 아니라 마치 인간 비서가 일하는 것을 보는 것과 같은 실시간 데스크톱 자동화를 의미합니다.
개발자가 알아야 할 사항
이 모델은 새로운 computer_use 모드를 통해 Gemini API로 접근할 수 있습니다. 가격은 표준 Gemini 3.5 Flash와 동일하게 유지되며, 에이전트 기능에 대한 프리미엄 등급은 없습니다. 이는 에이전트 좌석당 요금을 부과하는 경쟁사들을 향한 직접적인 공격입니다.
초기 벤치마크(benchmarks)에 따르면, 이 모델은 복잡한 웹 작업(항공권 예약, 다중 페이지 양식 작성, 데이터 추출)을 92%의 성공률로 완료하며, 이는 유사한 서비스들보다 현저히 높은 수치입니다.
핵심 요약 (The Bottom Line)
Gemini 3.5 Flash의 컴퓨터 사용(computer use) 기능은 2026년이 에이전트(agents)가 주류가 되는 해가 될 것임을 예고합니다. DeepMind는 자율적인 데스크톱 자동화(autonomous desktop automation)를 실제 환경에 배포할 수 있을 만큼 접근 가능하고, 저렴하며, 충분히 빠른 수준으로 만들어냈습니다.
아직 컴퓨터 사용 엔드포인트(endpoint)를 테스트해보지 않았다면, 지금이 바로 그때입니다. 미래의 당신(그리고 당신의 자동화 스크립트)이 고마워할 것입니다.
컴퓨터 사용 기능이 포함된 Gemini 3.5 Flash를 사용해 보셨나요? 댓글로 의견을 남겨주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기