Claude Code가 데스크톱을 제어(스크린샷, 클릭, 키보드)할 수 있게 해주는 제로 종속성 CLI, gui-tool을 제작했습니다. 무료
요약
Claude Code가 데스크톱 화면을 제어할 수 있도록 돕는 오픈 소스 CLI 도구인 gui-tool을 소개합니다. 스크린샷과 그리드 좌표 방식을 사용하여 마우스 클릭과 키보드 입력을 지원하며, Wayland 환경에서도 네이티브로 작동합니다.
핵심 포인트
- Claude Code가 스크린샷, 마우스, 키보드를 통해 데스크톱 제어 가능
- 픽셀 좌표 대신 그리드(A1, B2 등) 방식을 사용하여 정밀도 확보
- 접근성 트리 없이 화면 시각 정보만으로 캔버스 및 게임 UI 처리 가능
- 의존성 없는(Zero-dependency) Rust 기반 도구로 GNOME/Wayland 지원
- MIT 라이선스의 무료 오픈 소스 프로젝트
저는 Claude Code가 실제 데스크톱을 직접 다룰 수 있도록(스크린샷, 창 목록/활성화, 마우스, 키보드 등) 해주는 작은 오픈 소스 CLI인 gui-tool을 제작해 왔습니다. 에이전트가 GUI를 구동할 수 있도록 모든 입출력은 JSON 형식으로 이루어집니다.
단순히 파일을 읽고 쓰는 것을 넘어, Claude가 실제로 앱들을 클릭하며 돌아다니기를 원했기 때문에 저의 Claude Code 설정을 위해 만들었습니다. 이 도구는 Agent Skills SKILL.md 파일을 함께 제공하므로, 이를 ~/.claude/skills 폴더에 넣기만 하면 Claude Code가 이를 인식합니다 (커뮤니티 마켓플레이스용 플러그인 버전도 준비 중입니다).
에이전트가 작동할 수 있게 만드는 핵심 부분은 픽셀 좌표를 사용하지 않는다는 점입니다. 스크린샷 위에 라벨이 붙은 그리드(A1, B2, …)를 겹쳐서 표시하고 각 셀에 십자선(crosshair)을 배치합니다. Claude가 셀 이름을 지정하면 클릭이 해당 십자선 위치에 정확히 전달됩니다. 더 높은 정밀도가 필요한가요? 셀을 확대하여 서브 그리드(sub-grid)를 만들고 서브 셀 이름(B2.C1)을 지정하면 됩니다. 이 방식은 접근성 트리(accessibility tree)를 읽지 않고 오직 화면에 보이는 내용만으로 작동하므로, 캔버스(canvas)/WebGL, 게임, 그리고 커스텀 드로잉 UI도 처리할 수 있습니다.
두 가지 다른 특징이 있습니다: 첫째, 제로 종속성(zero-dependency)입니다 (Cargo.toml의 [dependencies]가 비어 있습니다. PNG 인코더, Wayland 포털을 위한 D-Bus 클라이언트, 그리고 JSON을 직접 작성했습니다). 둘째, xdotool이나 pyautogui가 작동하지 않는 GNOME/Wayland 환경에서 네이티브로 실행됩니다.
무료이며 MIT 라이선스입니다. 저장소: https://github.com/ZachRouan/agent-desktop-interface — cargo install gui-tool로 설치하거나, releases 페이지에서 빌드된 바이너리를 사용할 수 있습니다.
솔직한 한계점: 현재 Linux 지원은 GNOME/Wayland에 집중되어 있으며, 밀도가 높은 UI는 몇 단계의 확대(zoom)가 필요하고, 무엇을 클릭할지 결정하는 데 있어 Claude의 시각(vision) 능력에 의존합니다.
Claude Code를 사용하는 분들의 피드백을 받고 싶습니다. 그리드 클릭 방식이 여러분의 워크플로우에 맞는지, 그리고 에이전트가 어떤 데스크톱 작업을 수행하기를 원하는지 알려주세요.
submitted by /u/AnotherProgrammer42
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기