본문으로 건너뛰기

© 2026 Molayo

HN요약2026. 06. 20. 21:09

Show HN: AI 슬롭(slop)을 자동 승인하는 도구를 만들었습니다. 빅테크 개발자들이 좋아하네요

요약

AI 에이전트의 실행 승인 버튼을 자동으로 클릭해 주는 macOS용 도구인 Vision Clicker를 소개합니다. Apple Vision OCR을 활용해 화면의 특정 영역을 감시하고 'Run', 'Fetch' 등의 버튼을 찾아 클릭함으로써 자율적인 AI 작업 환경을 지원합니다.

핵심 포인트

  • Apple Vision OCR을 사용하여 화면 내 텍스트 버튼을 정확히 감지
  • AI 에이전트의 승인 절차를 자동화하여 자율성 극대화
  • 사용자가 지정한 영역을 감시하고 클릭 후 커서를 원래 위치로 복구
  • Ollama VLM을 활용한 실험적 영역 자동 선택 기능 제공

경고 (Warning)

Vision Clicker는 버튼을 자동으로 클릭함으로써 다른 애플리케이션의 동작을 승인할 수 있습니다. 사용에 따른 모든 책임은 사용자 본인에게 있습니다. AI 에이전트는 실수를 할 수 있으며, 기업의 승인 프롬프트는 일반적으로 실제 안전, 개인정보 보호, 컴플라이언스(compliance) 및 운영상의 이유로 존재합니다.

이 앱을 사용하기 전에 전체 면책 조항을 읽어보시기 바랍니다.

소개 (Intro)

때때로 기업의 관리자들은 "파일을 삭제할 수 있다"거나 "개인정보 보호에 안전하지 않다"는 논거를 들어 AI 에이전트의 자동 실행 모드를 허용하지 않지만, 실제로는 그들이 단지 AI의 영광을 이해하지 못할 뿐이며, 미래는 제한 없는 자율적인 AI 슬롭(SLOP)의 시대입니다!

이 간단한 앱은 AI 에이전트가 특정 제한 사항 때문에 요청하는 "실행(run)" 버튼을 자동으로 클릭함으로써, 당신이 진정으로 자율적인 AI 에이전트와 함께 작업할 수 있도록 해줍니다.

현재 설정은 백그라운드에 있는 AI 에이전트와는 작동하지 않으며, 클릭을 위해 에이전트 창이 열려 있어야 합니다. 다만, 이 설정은 듀얼 모니터 구성에서 테스트되었으며 정상적으로 작동합니다.

공식 설명 (Formally)

Vision Clicker는 사용자가 선택한 화면 영역을 감시하고, Apple Vision OCR을 사용하여 보이는 텍스트 버튼을 찾아 클릭한 다음, 커서를 원래 위치로 복구하는 로컬 macOS 메뉴 바(menu bar) 앱입니다.

이 앱은 코딩 에이전트 UI에서의 Run, Fetch 또는 Retry와 같은 작은 승인 컨트롤을 위해 설계되었습니다.

Vision Clicker demo

AI 에이전트에게 요청하여 설치하기:

Clone git@github.com:Alcray/SlopeAutoAcceptor.git,
그 다음 저장소 루트에서 ./install.sh를 실행하세요.

또는 터미널(Terminal)에서 수동으로 설치하기:

git clone git@github.com:Alcray/SlopeAutoAcceptor.git
cd SlopeAutoAcceptor
./install.sh

설치 프로그램은 앱을 빌드하고, /Applications/Vision Clicker.app로 복사하며, Finder에서 해당 앱을 표시하고 실행합니다. 만약 scripts/build_app.sh만 실행한다면, 앱은 dist/ 폴더에 머물며 Applications에 설치되지 않습니다.

기능 (Features)

  • cmd + shift + 4와 유사하게 캡처 영역(capture rectangle)을 그립니다.
  • 실험적 기능으로, OCR을 클릭 탐지기로 유지하면서 로컬 Ollama VLM을 사용하여 캡처 영역을 자동으로 선택합니다.
  • 실행하기 전에 저장된 영역을 강조 표시합니다.
  • 온디바이스(on-device) Apple OCR로 정확한 대상 레이블(target labels)을 감지합니다.
  • Run, Fetch, Retry와 같이 여러 레이블을 지원합니다.
  • 감지된 레이블을 클릭하고 커서를 복구합니다.
  • 수동으로 한 번 실행하거나 Live 모드에서 계속 스캔할 수 있습니다.
  • 선택 사항으로 cmd + shift + ]를 사용하여 Cursor 탭을 훑으며 보이는 각 대상을 클릭한 다음, cmd + shift + [로 돌아올 수 있습니다.
  • 모의 코딩 에이전트(mock coding-agent) 프롬프트와 변경되는 승인 버튼이 포함된 Testing Ground 창을 엽니다.
  • 메인 디스플레이 위나 옆에 있는 디스플레이를 포함하여 멀티 모니터 레이아웃에서 작동합니다.

개인정보 보호 (Privacy)

일반적인 Vision Clicker 스캔은 Mac의 Apple Vision OCR을 사용합니다. API 키가 필요하지 않으며, 모델을 다운로드하지 않고, 선택된 영역의 캡처본을 서버로 전송하지 않습니다.

실험적인 Auto Region 선택기는 전체 데스크톱 스크린샷 하나를 로컬 Ollama VLM 엔드포인트(기본값 http://localhost:11434, 모델 moondream)로 보낼 수 있습니다. 영역이 선택된 후에는 여전히 OCR이 실제 대상 감지 및 클릭을 수행합니다.

앱은 선택된 영역, 대상 레이블, 스캔 간격, 신뢰도 임계값(confidence threshold)을 포함한 설정을 UserDefaults에 로컬로 저장합니다.

자세한 내용은 Privacy를 참조하세요.

요구 사항 (Requirements)

  • macOS 13 이상.
  • 합성 마우스 클릭(synthetic mouse click)을 수행하는 데 사용되는 접근성(Accessibility) 권한.
  • 선택된 영역을 캡처하는 데 사용되는 화면 기록(Screen Recording) 권한.

빌드 (Build)

swift build --product VisionClicker
swift run AgentAutoAcceptSelfTest
sh scripts/build_app.sh

빌드된 앱은 다음 위치에 작성됩니다:

dist/Vision Clicker.app

로컬 설치를 위한 방법:

./install.sh

이 명령은 다음을 설치하고 실행합니다:

/Applications/Vision Clicker.app

사용법 (Usage)

  1. Vision Clicker를 실행합니다.
  2. 접근성 (Accessibility) 및 화면 기록 (Screen Recording) 권한을 허용합니다.
  3. Run 또는 Run, Fetch와 같은 대상 레이블 (labels)을 입력합니다.
  4. 최소 신뢰도 (minimum confidence)를 설정합니다. 작은 버튼의 경우 0.20이 실용적인 시작점입니다.
  5. Pick Region을 클릭하고 대상 버튼이 포함된 UI 영역을 드래그합니다.
  6. Show Region을 사용하여 저장된 사각형 영역을 확인합니다.
  7. Run Once를 클릭하여 테스트합니다.
  8. VLM (Vision Language Model) 실험을 위해, ollama serve를 실행하고 moondream과 같은 비전 모델 (vision model)을 가져온(pull) 다음, Auto Region을 클릭합니다.
  9. Test Ground를 사용하여 승인 컨트롤 (approval controls)이 계속 변하는 모의 코딩 에이전트 (mock coding-agent) 창을 엽니다.
  10. Cursor의 경우, Change Cursor Tabs를 켜고, Cursor TabsTab Change Delay를 설정한 다음, Run Tabs를 클릭합니다.
  11. 단일 실행 (single run)이 올바르게 동작하면 Live 모드로 전환합니다.

OCR 매칭은 가벼운 정규화 (normalization)를 거친 후 의도적으로 퍼지 (fuzzy)하게 처리되므로, RunRunning 또는 Auto-Run과 같은 OCR 텍스트와도 매칭될 수 있습니다. 근처의 로그 텍스트를 피하기 위해 선택된 영역을 승인 컨트롤 주변에 타이트하게 유지하세요.

더 자세한 내용은 User Guide에서 확인할 수 있습니다.

릴리스 (Release)

빌드를 게시하기 전에 Release Checklist를 사용하세요.

Vision Clicker가 Check for Updates를 통해 감지할 수 있는 GitHub 기반 버전을 게시하려면 다음을 실행합니다:

scripts/release.sh

릴리스 스크립트는 gh를 사용하여 최신 GitHub Release를 읽고, 다음 패치 버전 (patch version)으로 앱을 빌드하며, vX.Y.Z 태그를 푸시하고, GitHub Release를 생성한 뒤, 압축된 macOS 앱을 업로드합니다. 기본 정책은 항상 v0.1.1에서 v0.1.2와 같이 가장 작은 단위의 업데이트 (bump)입니다. 더 큰 단위의 업데이트가 의도적으로 요청된 경우에만 minor, major 또는 명시적인 버전을 사용하세요:

ALLOW_NON_PATCH_BUMP=1 scripts/release.sh minor

AI 자동 생성 콘텐츠

본 콘텐츠는 HN OpenAI Codex의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0