
OSWorld 2.0 출시, 1,500개의 데스크톱 작업을 통해 AI 에이전트 테스트
요약
Epoch AI가 AI 에이전트의 데스크톱 제어 능력을 평가하는 OSWorld 2.0을 출시했습니다. 기존 v1보다 4배 확장된 1,500개의 작업을 통해 적대적 환경과 교차 애플리케이션 워크플로에서의 신뢰성을 테스트합니다.
핵심 포인트
- 테스트 작업이 369개에서 1,500개로 대폭 확장됨
- macOS, Windows, Ubuntu 등 다양한 OS 환경 지원
- 오타 및 UI 변경을 포함한 적대적 강건성 테스트 추가
- 전체 작업의 30%가 다단계 교차 애플리케이션 워크플로 요구
Epoch AI는 v1의 369개에서 증가한 1,500개의 데스크톱 작업을 포함하는 OSWorld 2.0을 출시하여, 적대적 (Adversarial) 및 교차 애플리케이션 워크플로 (Cross-application workflows) 환경에서 AI 에이전트를 테스트합니다.
Epoch AI는 에이전트 벤치마크를 1,500개의 실제 데스크톱 작업으로 확장하며 OSWorld 2.0을 출시했습니다. 이번 업데이트는 컴퓨터 사용 AI 에이전트의 신뢰성 한계를 목표로 하며, 적대적 테스트 (Adversarial tests)와 교차 애플리케이션 워크플로 (Cross-application workflows)를 추가했습니다.
주요 사실
- OSWorld 2.0: 1,500개 작업, v1의 369개보다 4배 증가
- macOS, Windows, Ubuntu 전반에 걸쳐 테스트 수행
- 작업의 30%가 교차 애플리케이션 워크플로 (Cross-application workflows)를 요구함
- 적대적 테스트 (Adversarial tests)는 오타와 UI 변경을 주입함
- Gemini 3.5 Flash는 2026년 6월 v1에서 78.4점을 기록함
Epoch AI는 출처에 따르면, macOS, Windows, Ubuntu 전반에 걸쳐 벤치마크를 1,500개의 실제 데스크톱 작업으로 확장한 OSWorld 2.0을 출시했습니다. 이는 v1의 369개에서 증가한 수치입니다. 새 버전은 컴퓨터 사용 에이전트의 신뢰성 한계를 목표로 하며, 오타와 UI 변경을 주입하는 적대적 강건성 테스트 (Adversarial robustness tests)와 여러 애플리케이션에 걸친 다단계 추론 (Multi-step reasoning)을 요구하는 작업을 30% 더 추가했습니다.
OSWorld가 중요한 이유
OSWorld는 컴퓨터 사용 에이전트(computer-use agents) — 스크린샷을 해석하고 마우스/키보드 동작을 실행함으로써 데스크톱 인터페이스를 제어하는 모델 — 의 사실상의 표준 벤치마크(de facto benchmark)가 되었습니다. Google의 Gemini 3.5 Flash는 2026년 6월 OSWorld v1에서 78.4점을 기록하며, GPT-5.5와 대등한 성적을 거두었습니다. 이 벤치마크의 난이도는 실제 운영 체제(OS)에 기반한다는 점에 있습니다. 에이전트는 파일 대화 상자(file dialogs), 브라우저 탐색, 그리고 OS 업데이트에 따라 변경되는 애플리케이션 메뉴를 처리해야 합니다.
v2의 변경 사항
OSWorld 2.0은 에이전트가 의미론적 이해(semantic understanding) 대신 취약한 시각적 패턴(brittle visual patterns)에 의존하는지 테스트하기 위해 의도적으로 철자가 틀린 파일 이름, 변경된 버튼 레이블, 창 크기 조정과 같은 적대적 예시(adversarial examples)를 추가했습니다. 새로운 작업은 스프레드시트 조작, 이미지 편집, 터미널 명령을 포함하여 12개의 애플리케이션 카테고리에 걸쳐 있습니다. Epoch AI는 어떤 모델이 v2에서 전체 평가를 완료했는지 여부는 공개하지 않았습니다.
신뢰성 문제
공개 리더보드(leaderboards)에 따르면, 현재의 컴퓨터 사용 에이전트들은 OSWorld v1 작업의 약 20-30% 정도를 성공합니다. v2의 확장은 이 분야가 점진적인 비전 모델(vision-model)의 향상보다는 에이전트 계획(agent planning) 및 오류 복구(error recovery) 측면에서 근본적인 개선이 필요함을 시사합니다. 이 벤치마크의 다중 앱 워크플로(multi-app workflows)는 예를 들어 Gmail에서 CSV를 다운로드하고, 이를 LibreOffice Calc에서 편집한 다음, 결과를 이메일로 보내는 과정을 요구하는데, 이는 단 하나의 단계라도 오류가 발생하면 전체 시퀀스가 실패하게 됩니다.
주목해야 할 점
60일 이내에 발표될 것으로 예상되는 OSWorld 2.0의 첫 번째 공개 리더보드 점수를 주목하십시오. 만약 최상위 모델들의 성공률이 v1의 약 25%에서 15% 미만으로 떨어진다면, 이는 컴퓨터 사용 에이전트가 실제 서비스 수준의 신뢰성을 갖추기까지 여전히 수년이 남았음을 의미합니다.
출처: news.google.com
원래 발행일: gentic.news
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기