AI 에이전트를 위한 브라우저 자동화의 예측 가능성을 높이기 위해 Agentyc을 만들었습니다
요약
Agentyc은 코딩 에이전트의 브라우저 자동화 신뢰성을 높이기 위해 설계된 MCP 우선 브라우저 런타임입니다. 결정론적 동작과 상태 검사 기능을 통해 에이전트의 디버깅을 용이하게 하고 토큰 비용을 절감합니다.
핵심 포인트
- MCP 기반의 결정론적 브라우저 자동화 환경 제공
- 안정적인 요소 참조(element refs)를 통한 페이지 상태 검사 가능
- 콘솔 및 네트워크 로그를 통한 디버깅 가시성 확보
- 압축된 상태 뷰를 활용한 토큰 비용 절감 및 효율적 루프 구현
- 기존 Chrome 세션과 연결 가능한 공유 브라우저 모드 지원
AI 에이전트를 위한 많은 브라우저 도구들이 데모에서는 인상적으로 보이지만, 실제 업무에서는 신뢰하기 어려워집니다. 에이전트들은 여기저기 클릭하고 모호한 방식으로 무언가를 추출하며, 실패했을 때는 그 이유가 명확하지 않습니다. 저는 이 과정을 더 단순하게 만들기 위해 Agentyc을 만들었습니다. Agentyc은 코딩 에이전트(coding agents)를 위한 MCP 우선(MCP-first) 브라우저 런타임(runtime)입니다. 목표는 명확합니다: 에이전트에게 실제 브라우저를 제공하고, 동작을 결정론적(deterministic)으로 만들며, 페이지 상태를 검사 가능하게 하고, 일반적인 추출 작업에서 숨겨진 LLM 폴백(fallback)을 방지하는 것입니다.
왜 만들었는가
저는 블랙박스(black-box) 형태의 브라우저 에이전트보다는 디버깅 가능한 브라우저 자동화에 더 가까운 무언가를 원했습니다. 만약 에이전트가 페이지를 열고, 버튼을 클릭하고, 양식에 타이핑하거나, 테이블을 추출한다면, 저는 다음 사항들을 알고 싶습니다: 에이전트가 어떤 페이지 상태를 보았는지, 어떤 요소를 대상으로 했는지, 동작 후에 무엇이 변했는지, 그리고 오류가 발생했을 때 콘솔(console)과 네트워크(network) 상태가 어떠했는지 말입니다. 이것이 바로 Agentyc이 해결하고자 하는 문제입니다.
할 수 있는 일
기본 MCP 서버를 통해 코딩 에이전트는 다음과 같은 작업을 수행할 수 있습니다:
- 페이지 탐색(navigate)
- 클릭, 타이핑, 스크롤 및 파일 업로드
- 안정적인 요소 참조(element refs)를 통한 페이지 상태 검사
- 스크린샷 촬영
- HTML 읽기
- 쿠키 검사
- 콘솔 및 네트워크 로그 검사
- 링크, 테이블, 리스트, 양식 필드 및 키-값(key-value) 블록을 결정론적인 방식으로 추출
빠른 시작
uv tool install agentyc
agentyc init
agentyc init은 코딩 에이전트가 읽을 수 있는 가이드 파일을 작성합니다. agentyc은 MCP 서버를 시작합니다.
간단한 예시
가장 유용한 부분 중 하나는 browser_get_state입니다. 매번 페이지 전체를 쏟아내는 대신, 에이전트는 압축된 상태 뷰(compact state view)를 요청하여 e123와 같은 안정적인 참조(refs)를 얻고, 해당 참조를 기반으로 동작할 수 있습니다. 이를 통해 다음과 같은 루프가 가능해집니다:
- 페이지 열기
- 압축된 상태 가져오기
- 안정적인 참조를 사용하여 클릭 또는 타이핑
- 페이지가 변경될 때까지 since_hash로 폴링(poll)
- 필요한 것만 추출
이는 결과적으로 토큰 비용을 절감하고 디버깅을 더 쉽게 만듭니다.
결정론적(deterministic) 방식이 중요한 이유
많은 브라우저 + AI 워크플로우가 깨지는 이유는 도구가 구조화된 자동화에서 모호한 해석(fuzzy interpretation)으로 조용히 전환되기 때문입니다.
Agentyc은 표(table), 목록(list), 링크(links) 또는 양식 필드(form fields)를 추출하는 것과 같은 일반적인 작업에 대해 반대의 접근 방식을 취합니다. 즉, 결정론적 경로(deterministic route)가 있다면 그것을 사용하고, 없다면 명확한 오류를 반환합니다. 이러한 트레이드오프(tradeoff)는 마법처럼 느껴지지는 않지만, 훨씬 더 신뢰하기 쉽습니다.
공유 브라우저 모드 (Shared browser mode)
제가 원했던 또 다른 기능은 기존의 Chrome 또는 Chromium 세션에 연결할 수 있는 능력이었습니다. 이는 사람과 에이전트가 동일한 브라우저에서 더 자연스럽게 협업할 수 있음을 의미합니다:
- 원격 디버깅(remote debugging)과 함께 브라우저 실행
- 여기에 Agentyc 연결
- 에이전트가 탭이나 창에서 작업하도록 허용
- 무엇이 일어나고 있는지에 대한 가시성 유지
대상 사용자 (Who this is for)
Agentyc은 다음과 같은 것을 구축할 때 유용합니다:
- 브라우저 접근 권한이 필요한 코딩 에이전트 (coding agents)
- 웹 워크플로우를 위한 MCP 도구
- 블랙박스 에이전트(black-box agent)가 제공하는 것보다 더 나은 디버깅이 필요한 자동화
- 마법보다 예측 가능한 동작이 더 중요한 브라우저 워크플로우
피드백 요청 (What I want feedback on)
Agentyc은 오픈 소스(open source)이며 아직 초기 단계입니다. 다음과 같은 부분에 대해 피드백을 받고 싶습니다:
- MCP 도구 인터페이스 (the MCP tool surface)
- 상태 모델 (the state model)
- 공유 브라우저 워크플로우 (shared-browser workflows)
- 브라우저 루프(browser loop)가 여전히 너무 무겁게 느껴지는 부분들
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기