Show HN: 브라우징을 위한 ChatGPT Agents의 오픈 소스 대안
요약
Meka Agent는 최첨단 브라우징 능력을 갖춘 오픈 소스 기반의 자율적인 컴퓨터 사용 에이전트입니다. 이 에이전트는 시각적 인지 능력과 전체 컴퓨터 컨텍스트를 활용하여 인간처럼 작동하도록 설계되었으며, 단순하고 확장 가능한 프레임워크를 제공합니다. WebArena 벤치마크에서 최첨단 성능(72.7%)을 달성했으며, 사용자는 OpenAI o3, Claude Sonnet 4, Claude Opus 4와 같은 강력한 비전 모델과 OS 레벨 제어가 가능한 인프라 제공업체를 조합하여 자신만의 에이전트를 구축할 수 있습니다.
핵심 포인트
- Meka Agent는 시각(vision)을 활용하고 전체 컴퓨터 컨텍스트 내에서 작동하는 자율적인 AI 에이전트입니다.
- WebArena 벤치마크에서 최첨단 성능을 입증하며, 웹 브라우징 작업에 특화되어 있습니다.
- 사용자는 OpenAI o3, Claude Sonnet 4, Claude Opus 4 등 뛰어난 시각적 접지 능력을 가진 다양한 LLM을 자유롭게 선택할 수 있습니다.
- Playwright 기반의 브라우저 레이어뿐만 아니라 OS 레벨 제어가 가능한 인프라 제공업체를 활용하여 에이전트의 기능을 확장할 수 있습니다.
- TypeScript로 작성된 오픈 소스 프레임워크로, 높은 확장성과 타입 안정성을 자랑합니다.
Meka Agent
Meka Agent는 최첨단 브라우징 (browsing) 능력을 제공하는 오픈 소스 기반의 자율적인 컴퓨터 사용 에이전트 (autonomous computer-using agent)입니다. 이 에이전트는 시각 (vision)을 눈으로 사용하고 전체 컴퓨터 컨텍스트 (computer context) 내에서 동작함으로써, 인간과 동일한 방식으로 작동하고 행동합니다.
이 에이전트는 단순하고 확장 가능하며 맞춤 설정이 가능한 프레임워크로 설계되어, 모델, 도구 및 인프라 제공업체 선택에 있어 유연성을 제공합니다.
벤치마크 (Benchmarks)
이 에이전트는 현재 주로 웹 브라우징 (web browsing)에 집중하고 있으며, WebArena 벤치마크 (WebArena Benchmark)에서 최첨단 (state-of-the-art) 결과(72.7%)를 달성했습니다.
<img width="451" height="321" alt="Frame 70 (2)" src="https://github.com/user-attachments/assets/45ba645c-7bb3-458d-af8a-9cb6cf689510" />벤치마크 결과의 세부 사항에 대해서는 여기에서 더 읽어보세요.
Meka App
별도의 설정 없이 브라우저 자동화 (browser automations)를 시작하고 싶다면, Meka App을 방문하여 10달러의 무료 크레딧으로 Meka Agent를 체험해 보세요.
시작하기 (Getting Started)
Meka를 시작하기 위해, 저희는 광범위하게 테스트를 거친 다양한 제공업체들을 패키징했습니다. 크게 두 가지 핵심 요소가 있습니다:
- 좋은 시각적 접지 (visual grounding) 능력을 갖춘 시각 모델 (vision model). 저희의 실험 결과에 따르면, OpenAI o3, Claude Sonnet 4, 그리고 Claude Opus 4가 가장 우수한 미국 기반 모델입니다. 중국 기반 모델에 대해서는 아직 실험하지 않았으나, 기여를 환영합니다!
- Playwright 스크린샷을 이용한 브라우저 레이어뿐만 아니라, OS 레벨의 제어 (OS-level controls)를 노출하는 인프라 제공업체 (infrastructure provider). 이는 성능 측면에서 매우 중요한데, 많은 일반적인 웹 요소들이 브라우저 페이지에는 보이지 않는 시스템 레벨에서 렌더링되기 때문입니다. (예: 드롭다운 메뉴, 브라우저 알림, 파일 업로드 등)
시작하기 위해, 저희는 모델로 OpenAI o3를, VM 기반 인프라 제공업체로 Anchor Browser를 선택했습니다. OS 레벨의 제어가 가능한 다른 인프라 제공업체의 제출도 환영합니다!
- SDK의 주요 구성 요소를 설치하세요
npm install @trymeka/core @trymeka/ai-provider-vercel @ai-sdk/openai @trymeka/computer-provider-anchor-browser playwright-core
- .env 파일을 생성하고 스타터 제공업체(starter providers)의 API 키를 입력하세요
OPENAI_API_KEY=https://platform.openai.com/settings/organization/api-keys 에서 가져오세요
ANCHOR_BROWSER_API_KEY=https://app.anchorbrowser.io/api-access 에서 가져오세요
- 에이전트(agent)를 시작하세요
import { createOpenAI } from "@ai-sdk/openai";
import { createGoogleGenerativeAI } from "@ai-sdk/google";
import { createAnthropic } from "@ai-sdk/anthropic";
...
예시 (Examples)
더 많은 사용 예시는 /examples를 확인하세요.
에이전트 설계 (Agent Design)
Meka는 실험을 통해 얻은 교훈과 공개적으로 사용 가능한 연구를 바탕으로 만들어졌습니다. 이 에이전트를 만드는 데 있어 우리의 근본적인 철학은 시각(vision)부터 도구(tools), 메모리(memory)에 이르기까지 인간이 생각하는 방식과 같이 생각하는 것입니다.
더 자세한 내용은 Meka Agent에 관한 블로그 포스트를 방문하세요.
주요 기능 (Key Features)
- 자신만의 LLM 사용 (Bring your own LLM): Meka는 본질적으로 해킹(hackable)이 가능하며 Vercel의 ai-sdk가 지원하는 모든 모델과 함께 작동합니다. 모델은 시각적 접지(visual grounding) 능력이 뛰어난 비전 모델(vision model)이어야 합니다. 우리의 실험에서는 OpenAI o3, Sonnet 4, 그리고 Opus 4가 좋은 후보였습니다.
- 확장 가능성 (Extensible): Meka는 확장 가능하도록 설계되었습니다. 에이전트에 자신만의 도구와 제공업체를 쉽게 추가할 수 있습니다.
- 오픈 소스 (Open Source): Meka는 오픈 소스이며, 자율적인 작업 완료(autonomous task completion)를 위한 AI 에이전트 테스트를 통해 개발한 학습 내용을 바탕으로 구축되었습니다.
- 타입 안정성 (Typesafe): Meka는 TypeScript로 작성되었으며, 에이전트를 구축하고 상호작용하기 위한 타입 안정성이 보장된 API(typesafe API)를 제공합니다.
기여하기 (Contributing)
Meka Agent에 대한 기여를 환영합니다! 기여하고 싶으시다면, 시작하기 전에 우리의 기여 가이드라인을 읽어주세요.
라이선스 (License)
Meka Agent는 MIT 라이선스(MIT License) 하에 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Show HN (AI)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기