Gemini 3.5 Flash, OSWorld에서 78.4점 기록하며 GPT-5.5와 대등한 성능 달성

요약

Google이 Gemini 3.5 Flash에 'Computer Use' 기능을 통합하여 OSWorld 벤치마크에서 78.4점을 기록했습니다. 이는 GPT-5.5와 대등한 성능으로, 모델이 화면과 브라우저를 직접 조작하며 에이전트 역할을 수행할 수 있음을 보여줍니다.

핵심 포인트

Gemini 3.5 Flash, OSWorld 벤치마크에서 78.4점 달성
컴퓨터, 브라우저, 모바일 기기를 직접 보고 조작하는 기능 내장
GPT-5.5 및 Anthropic 모델들과 대등한 에이전트 성능 입증
프롬프트 인젝션 방어를 위한 적대적 학습 및 보안 조치 적용

Google은 Gemini 3.5 Flash에 Computer Use (컴퓨터 사용) 기능을 통합하여 OSWorld에서 78.4점을 기록했습니다. 이는 GPT-5.5와 대등한 수준이며 비용 면에서는 더 저렴합니다.

Google은 Gemini 3.5 Flash에 Computer Use를 직접 내장하여 OSWorld에서 78.4점을 기록했습니다. 이는 GPT-5.5 (78.7)와 대등한 수치입니다. 이 모델은 Gemini API를 통해 화면, 브라우저 및 모바일 기기를 네이티브하게 보고 조작할 수 있습니다.

주요 사실 (Key facts)

Gemini 3.5 Flash는 OSWorld에서 78.4점을 기록했습니다.
GPT-5.5가 78.7점으로 앞서고 있으며, Anthropic Opus 4.8은 83.4점을 기록했습니다.
이 기능은 Gemini API 및 Enterprise Agent Platform을 통해 사용할 수 있습니다.
프롬프트 인젝션 (Prompt Injection) 방어를 위한 적대적 학습 (Adversarial Training)이 포함되었습니다.
이전에는 별도의 Gemini 2.5 모델로만 제공되었습니다.

Google은 "Computer Use" 기능을 Gemini 3.5 Flash에 직접 통합하여, 모델이 컴퓨터, 브라우저 및 모바일 기기를 자율적으로 보고 이해하며 상호작용할 수 있도록 했습니다. 이전에는 이 기능이 별도의 Gemini 2.5 모델로만 제공되었습니다. 함수 호출 (Function Calls), 검색 (Search), 지도 (Maps)와 같은 기존 도구와 결합하여, 개발자들은 이제 브라우저, 모바일 및 데스크톱 환경 전반에서 소프트웨어 테스트 또는 사무 자동화를 위한 에이전트를 구축할 수 있습니다 The Decoder에 따르면.

OSWorld 벤치마크에서 Gemini 3.5 Flash는 78.4점을 기록하여 Gemini 3 Flash (65.1)와 GPT-5.4 mini (72.1)를 능가했습니다. GPT-5.5가 78.7점으로 바로 앞서고 있으며, Anthropic의 Opus 4.8이 83.4점으로 선두를 달리고 있습니다. Sonnet 4.6 또한 78.4점을 기록했으며, Gemini 3.1 Pro는 76.2점을 기록했습니다. 이 벤치마크는 파일 조작 및 웹 탐색과 같은 실제 컴퓨터 작업을 완료하는 에이전트의 능력을 측정합니다.

보안 및 배포 (Security and Deployment)

프롬프트 인젝션 (Prompt Injection) 공격을 방어하기 위해, Google은 적대적 학습 (Adversarial Training)과 두 가지 선택적 엔터프라이즈 보호 조치를 사용합니다. 하나는 민감하거나 되돌릴 수 없는 작업에 대해 사용자의 확인을 요구하며, 다른 하나는 간접 프롬프트 인젝션 (Indirect Prompt Injection)이 감지되면 작업을 자동으로 중단합니다. Google은 또한 샌드박싱 (Sandboxing), 인간의 감독 (Human Oversight), 엄격한 액세스 제어 (Access Controls)를 권장하며, 자세한 내용은 모범 사례 (Best Practices) 문서에 명시되어 있습니다. 이 기능은 Gemini API 및 Gemini Enterprise Agent Platform을 통해 사용할 수 있습니다. Browserbase 데모와 GitHub 참조 구현체도 제공됩니다.

이러한 행보는 별도의 오케스트레이션 (Orchestration) 레이어를 요구하는 대신, 모델에 에이전트 능력 (Agentic Capabilities)을 직접 내장하려는 Google의 광범위한 추진 전략을 따르는 것이며, 이는 OpenAI의 GPT-5.5 및 Anthropic의 Claude Opus에서도 볼 수 있는 패턴입니다. 컴퓨터 사용 (Computer Use) 기능을 더 저렴한 Flash 티어에 통합함으로써, Google은 에이전트 벤치마크 (Agentic Benchmarks)의 격차를 좁히는 동시에 가격 측면에서 경쟁사들을 압도하고 있습니다.

주목해야 할 점

Google Cloud의 다음 분기 실적 발표에서 엔터프라이즈 채택 지표를 주시해야 하며, Anthropic이나 OpenAI가 OSWorld에서 Flash의 가격 대비 성능에 상응하는 하위 티어 모델로 대응할지 지켜봐야 합니다. GPT-5.5-mini와의 직접적인 정면 승부는 에이전트 비용 곡선 (Agentic Cost Curve)을 명확히 해줄 것입니다.

출처: the-decoder.com

원문 게시: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기

Gemini 3.5 Flash, OSWorld에서 78.4점 기록하며 GPT-5.5와 대등한 성능 달성

요약

핵심 포인트

보안 및 배포 (Security and Deployment)

주목해야 할 점

댓글