프로젝트 로그 #1: 스마트폰을 제어하는 AI 에이전트를 만드는 중
요약
Android 기기 내에서 로컬로 실행되는 자율형 AI 에이전트 개발 프로젝트의 첫 번째 로그입니다. Gemma 4 E4B와 Termux를 활용하여 클라우드 연결 없이 개인정보를 보호하며 스마트폰 앱을 제어하는 것을 목표로 합니다.
핵심 포인트
- Gemma 4 E4B와 Ollama를 활용한 로컬 AI 브레인 구축
- ADB 및 UI Automator를 이용한 Android 기기 제어
- 개인정보 보호와 오프라인 작동을 위한 온디바이스 설계
- 이미지 기반 버튼 인식 및 다단계 작업 검증의 기술적 난제
새로운 프로젝트를 시작합니다. 이는 제가 스마트폰으로 시도하는 가장 야심 찬 일입니다.
목표: 스마트폰을 제어하는 AI 에이전트입니다. 앱을 열고, 화면을 탐색하며, 버튼을 탭하고, 텍스트를 입력하며, 다단계 작업을 완료합니다. 모두 오프라인으로, 모두 로컬에서 수행됩니다. 클라우드는 사용하지 않습니다.
이것은 공개 빌드 로그의 1일 차입니다. 미사여구는 없습니다. 제가 무엇을 만들고 있는지, 어떻게 작동하는지, 그리고 그 과정에서 무엇이 고장 나는지에 대해서만 다룹니다.
무엇을 만드는가
Android 폰에서 완전히 실행되는 자율형 AI 에이전트입니다. 여러분은 일상적인 영어로 명령을 내립니다:
· "WhatsApp을 열고 엄마에게 나중에 전화하겠다고 메시지를 보내줘."
· "Wellfound에서 Kotlin 관련 일자리를 검색해줘."
· "내 노트를 열고 어제 쓴 내용을 요약해줘."
에이전트는 명령을 분석하고, 단계를 계획하며, 이를 실행합니다. 앱을 열고, 적절한 버튼을 찾고, 텍스트를 입력하고, 전송 버튼을 누릅니다. 클라우드도, API 키도 필요 없습니다. 그저 여러분을 대신해 행동하는 스마트폰이 있을 뿐입니다.
기술 스택 (The Stack)
구성 요소 | 도구
AI Brain | Gemma 4 E4B (로컬, Ollama를 통해 실행)
Runtime | Termux (Android 상의 Linux)
Phone Control | ADB + UI Automator
Orchestration | Python
이것이 중요한 이유
대부분의 AI 에이전트는 클라우드에서 작동합니다. 인터넷, API, 그리고 타인의 서버가 필요합니다. 폰에서 실행되는 로컬 에이전트는 다음과 같은 의미를 갖습니다:
· 개인정보 보호 (Privacy): 데이터가 기기를 절대 떠나지 않습니다.
· 오프라인 (Offline): 인터넷 없이도 작동합니다.
· 접근성 (Accessible): 수십억 명의 사람들이 이미 소유하고 있는 기기를 위해 구축되었습니다.
이미 예상되는 어려운 부분들
· 에이전트는 어디를 탭해야 할지 알기 위해 화면을 "볼" 수 있어야 합니다. 텍스트 탐지는 가능하지만, 이미지 기반 버튼은 더 어렵습니다.
· 다단계 작업은 검증이 필요합니다. 탭 하나가 빗나가면 전체 체인이 실패합니다.
· Android 권한 문제. ADB를 사용하려면 개발자 모드가 필요합니다. 사용자용 버전이 되려면 우회 방법이 필요할 것입니다.
다음 단계
· 2일 차: 리포지토리(repo) 생성. 프로젝트 구조 설정. 첫 번째 작동하는 스크립트 푸시.
· 3일 차: OCR을 사용하여 화면 텍스트 탐지 기능 구현.
· 4일 차: 전체 3단계 작업 테스트.
오늘은 1일 차입니다. 리포지토리는 내일 공개됩니다. 희귀한 무언가가 밑바닥부터 만들어지는 과정을 보고 싶다면 함께해 주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기