Dev.to헤드라인2026. 06. 08. 06:26

프로젝트 로그 #1: 스마트폰을 제어하는 AI 에이전트를 만드는 중

요약

Android 기기 내에서 로컬로 실행되는 자율형 AI 에이전트 개발 프로젝트의 첫 번째 로그입니다. Gemma 4 E4B와 Termux를 활용하여 클라우드 연결 없이 개인정보를 보호하며 스마트폰 앱을 제어하는 것을 목표로 합니다.

핵심 포인트

Gemma 4 E4B와 Ollama를 활용한 로컬 AI 브레인 구축
ADB 및 UI Automator를 이용한 Android 기기 제어
개인정보 보호와 오프라인 작동을 위한 온디바이스 설계
이미지 기반 버튼 인식 및 다단계 작업 검증의 기술적 난제

새로운 프로젝트를 시작합니다. 이는 제가 스마트폰으로 시도하는 가장 야심 찬 일입니다.

목표: 스마트폰을 제어하는 AI 에이전트입니다. 앱을 열고, 화면을 탐색하며, 버튼을 탭하고, 텍스트를 입력하며, 다단계 작업을 완료합니다. 모두 오프라인으로, 모두 로컬에서 수행됩니다. 클라우드는 사용하지 않습니다.

이것은 공개 빌드 로그의 1일 차입니다. 미사여구는 없습니다. 제가 무엇을 만들고 있는지, 어떻게 작동하는지, 그리고 그 과정에서 무엇이 고장 나는지에 대해서만 다룹니다.

무엇을 만드는가

Android 폰에서 완전히 실행되는 자율형 AI 에이전트입니다. 여러분은 일상적인 영어로 명령을 내립니다:

· "WhatsApp을 열고 엄마에게 나중에 전화하겠다고 메시지를 보내줘."
· "Wellfound에서 Kotlin 관련 일자리를 검색해줘."
· "내 노트를 열고 어제 쓴 내용을 요약해줘."

에이전트는 명령을 분석하고, 단계를 계획하며, 이를 실행합니다. 앱을 열고, 적절한 버튼을 찾고, 텍스트를 입력하고, 전송 버튼을 누릅니다. 클라우드도, API 키도 필요 없습니다. 그저 여러분을 대신해 행동하는 스마트폰이 있을 뿐입니다.

기술 스택 (The Stack)

이것이 중요한 이유

대부분의 AI 에이전트는 클라우드에서 작동합니다. 인터넷, API, 그리고 타인의 서버가 필요합니다. 폰에서 실행되는 로컬 에이전트는 다음과 같은 의미를 갖습니다:

· 개인정보 보호 (Privacy): 데이터가 기기를 절대 떠나지 않습니다.
· 오프라인 (Offline): 인터넷 없이도 작동합니다.
· 접근성 (Accessible): 수십억 명의 사람들이 이미 소유하고 있는 기기를 위해 구축되었습니다.

이미 예상되는 어려운 부분들

· 에이전트는 어디를 탭해야 할지 알기 위해 화면을 "볼" 수 있어야 합니다. 텍스트 탐지는 가능하지만, 이미지 기반 버튼은 더 어렵습니다.
· 다단계 작업은 검증이 필요합니다. 탭 하나가 빗나가면 전체 체인이 실패합니다.
· Android 권한 문제. ADB를 사용하려면 개발자 모드가 필요합니다. 사용자용 버전이 되려면 우회 방법이 필요할 것입니다.

다음 단계

· 2일 차: 리포지토리(repo) 생성. 프로젝트 구조 설정. 첫 번째 작동하는 스크립트 푸시.
· 3일 차: OCR을 사용하여 화면 텍스트 탐지 기능 구현.
· 4일 차: 전체 3단계 작업 테스트.

오늘은 1일 차입니다. 리포지토리는 내일 공개됩니다. 희귀한 무언가가 밑바닥부터 만들어지는 과정을 보고 싶다면 함께해 주세요.

AI 자동 생성 콘텐츠

원문 바로가기

프로젝트 로그 #1: 스마트폰을 제어하는 AI 에이전트를 만드는 중

요약

핵심 포인트

댓글