Claude Code가 데스크톱을 제어(스크린샷, 클릭, 키보드)할 수 있게 해주는 제로 종속성 CLI, gui-tool을 제작했습니다. 무료

저는 Claude Code가 실제 데스크톱을 직접 다룰 수 있도록(스크린샷, 창 목록/활성화, 마우스, 키보드 등) 해주는 작은 오픈 소스 CLI인 gui-tool을 제작해 왔습니다. 에이전트가 GUI를 구동할 수 있도록 모든 입출력은 JSON 형식으로 이루어집니다.

단순히 파일을 읽고 쓰는 것을 넘어, Claude가 실제로 앱들을 클릭하며 돌아다니기를 원했기 때문에 저의 Claude Code 설정을 위해 만들었습니다. 이 도구는 Agent Skills SKILL.md 파일을 함께 제공하므로, 이를 ~/.claude/skills 폴더에 넣기만 하면 Claude Code가 이를 인식합니다 (커뮤니티 마켓플레이스용 플러그인 버전도 준비 중입니다).

에이전트가 작동할 수 있게 만드는 핵심 부분은 픽셀 좌표를 사용하지 않는다는 점입니다. 스크린샷 위에 라벨이 붙은 그리드(A1, B2, …)를 겹쳐서 표시하고 각 셀에 십자선(crosshair)을 배치합니다. Claude가 셀 이름을 지정하면 클릭이 해당 십자선 위치에 정확히 전달됩니다. 더 높은 정밀도가 필요한가요? 셀을 확대하여 서브 그리드(sub-grid)를 만들고 서브 셀 이름(B2.C1)을 지정하면 됩니다. 이 방식은 접근성 트리(accessibility tree)를 읽지 않고 오직 화면에 보이는 내용만으로 작동하므로, 캔버스(canvas)/WebGL, 게임, 그리고 커스텀 드로잉 UI도 처리할 수 있습니다.

두 가지 다른 특징이 있습니다: 첫째, 제로 종속성(zero-dependency)입니다 (Cargo.toml의 [dependencies]가 비어 있습니다. PNG 인코더, Wayland 포털을 위한 D-Bus 클라이언트, 그리고 JSON을 직접 작성했습니다). 둘째, xdotool이나 pyautogui가 작동하지 않는 GNOME/Wayland 환경에서 네이티브로 실행됩니다.

무료이며 MIT 라이선스입니다. 저장소: https://github.com/ZachRouan/agent-desktop-interface — cargo install gui-tool로 설치하거나, releases 페이지에서 빌드된 바이너리를 사용할 수 있습니다.

솔직한 한계점: 현재 Linux 지원은 GNOME/Wayland에 집중되어 있으며, 밀도가 높은 UI는 몇 단계의 확대(zoom)가 필요하고, 무엇을 클릭할지 결정하는 데 있어 Claude의 시각(vision) 능력에 의존합니다.

Claude Code를 사용하는 분들의 피드백을 받고 싶습니다. 그리드 클릭 방식이 여러분의 워크플로우에 맞는지, 그리고 에이전트가 어떤 데스크톱 작업을 수행하기를 원하는지 알려주세요.
submitted by /u/AnotherProgrammer42
[link] [comments]

Insights

Claude Code가 데스크톱을 제어(스크린샷, 클릭, 키보드)할 수 있게 해주는 제로 종속성 CLI, gui-tool을 제작했습니다. 무료

요약

핵심 포인트

댓글

MCP를 활용한 첫 번째 AI 에이전트 구축: 단계별 가이드

에이전트 설계는 지능이 아니라 제한된 최적화이다

코딩 없이 25분 만에 AI 에이전트 만들기

오늘의 주식 시장: 기록적인 한 주 이후 S&P 500, Nasdaq, Dow 선물 상승

MCP를 활용한 첫 번째 AI 에이전트 구축: 단계별 가이드

에이전트 설계는 지능이 아니라 제한된 최적화이다

코딩 없이 25분 만에 AI 에이전트 만들기

오늘의 주식 시장: 기록적인 한 주 이후 S&P 500, Nasdaq, Dow 선물 상승