본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 25. 21:52

아들의 시험 준비를 위해 로컬 AI 앱을 만들었는데, Mac용 개인용 ChatGPT/Gemini가 되었습니다

요약

개인정보 보호를 위해 모든 데이터가 기기 내에서만 처리되는 macOS용 로컬 AI 앱 'Ka1zen'을 소개합니다. llama.cpp와 MLX를 기반으로 채팅, 비전, 이미지 생성, 웹 검색, RAG 기능을 하나의 네이티브 앱으로 통합했습니다.

핵심 포인트

  • 데이터가 외부 서버로 전송되지 않는 완전한 로컬 실행 환경 제공
  • llama.cpp 및 Apple MLX를 활용한 macOS 네이티브 성능 최적화
  • 채팅, 이미지 생성, 웹 검색, RAG 등 다양한 기능을 단일 앱에 통합
  • 구독이나 계정 없이 오픈 모델(Gemma, Qwen 등)을 자유롭게 활용 가능

안녕하세요 여러분,

저는 오랫동안 밤과 주말을 이용해 이 작업을 해왔으며, 마침내 이를 가장 혹독하게 테스트해 줄 수 있는 분들(그리고 이를 통해 무언가를 얻어낼 수 있기를 바라는 분들) 앞에 선보이고자 합니다. 이것은 Ka1zen이라고 불리는 네이티브 macOS 앱입니다.

제가 이것을 만든 이유

시작은 제 아들이었습니다. 아들은 6월 말, 몇 주 뒤에 Brevet(프랑스 중학교 졸업 국가 고시)를 치릅니다. 저는 아들이 질문을 던지고, 노트를 요약하며, 스스로 퀴즈를 풀어볼 수 있는 무언가를 주고 싶었습니다. 하지만 아이의 학습 습관과 아이가 입력할 수 있는 모든 것을 기업의 서버에 넘겨주는 아이디어는 마음에 들지 않았습니다. 그래서 아들을 위해 첫 버전을 만들었고, 그것은 서서히 저 자신에게도 필요한 것으로 성장했습니다.

스크린샷은 정확히 그 모습을 보여줍니다. 아들이 시험을 위해 냉전(Cold War)에 대해 설명해 달라고 요청하고 있고, 제 Mac에서 완전히 실행되는 35B 모델이 답변하고 있습니다. 대화가 프랑스어로 되어 있는 이유는 아들이 프랑스인이기 때문이며, 그 대화의 어떤 내용도 기기를 떠난 적이 없기 때문입니다.

이것은 제가 Claude, ChatGPT, Gemini를 사용할 때 계속 부딪혔던 것과 동일한 장벽입니다. 그것들은 정말 훌륭하며 저도 매일 사용합니다. 하지만 제가 실제로 중요하게 생각하는 것들, 즉 비밀 유지 계약(NDA) 하에 있는 업무 내용, 개인적인 노트, 미완성된 아이디어, 가족 관련 사항들을 타인의 서버에 붙여넣고 싶지는 않습니다. 그리고 "무료"는 대개 당신이 학습 데이터가 된다는 것을 의미합니다.

따라서 목표는 단순했지만, 약간은 야심 찼습니다. 일상적인 Claude/Gemini의 경험에 최대한 가깝게 구현하되, 전적으로 제 자신의 Mac에서 실행되도록 하는 것이었습니다. 계정 없음, 구독 없음, 텔레메트리(Telemetry, 원격 측정) 없음, 외부 서비스에 대한 의존성 없음. 인터넷에 접속하는 유일한 두 가지는 (단 한 번의) 모델 다운로드와 웹 검색뿐이며, 이마저도 사용자가 실제로 요청할 때만 이루어집니다. 당신의 채팅, 문서, 이미지는 그 무엇도 기기를 떠나지 않습니다.

revision exam cold war

실제로 어떤 기능을 하는가

이것은 단순히 모델을 갖다 붙인 채팅창이 아닙니다.

일상생활에서 사람들이 큰 어시스턴트(big assistants)를 위해 찾는 기능들을 모두 담으려고 노력했습니다:

  • 채팅: Qwen 3.6과 Gemma 4를 중심으로 구축되고 조정된 오픈 모델들과의 채팅이 가능합니다. DeepSeek, Mistral, Llama도 실행되지만, 이 두 계열에서 가장 뛰어납니다.
  • 비전(Vision): 이미지를 넣고 질문할 수 있습니다. 또한 로컬에서의 이미지 생성 및 편집 (FLUX, Qwen-Image) 기능도 제공합니다.
  • 웹 검색: 최신 정보가 필요할 때 실제 [1] 스타일의 인용문과 함께 웹 검색을 지원하며, 인라인 이미지 결과(

저는 여전히 매일 사용하고 있는 ChatGPT, Claude 또는 Gemini를 이기려고 하는 것이 아닙니다. 또한 Ollama, LM Studio 또는 llama.cpp를 대체하려는 것도 아닙니다. 그것들은 매우 훌륭하며, Ka1zen은 내부적으로 말 그대로 llama.cpp(및 Apple의 MLX) 위에서 실행됩니다.

그렇다면 왜 그것들을 직접 사용하지 않을까요? 그것들은 모델 실행기 (model runners)이기 때문입니다. 그것들은 채팅창에서 모델이 훌륭하게 답변하도록 해줄 수는 있지만, ChatGPT나 Gemini를 일상생활에서 유용하게 만드는 실제 요소들, 즉 이미지 생성 및 편집, 실제 인용문이 포함된 웹 검색, 개인 파일에 대한 RAG (Retrieval-Augmented Generation), 음성 입출력 등은 여전히 도구를 하나씩 직접 조립해야 합니다. Ka1zen은 이 모든 것을 하나의 네이티브 앱으로 묶어주며, 사용자가 직접 할 필요가 없도록 모델별로 적절한 엔진(MLX vs llama.cpp)을 선택하고, 추측 디코딩 (speculative decoding)을 설정해 줍니다 (초안 모델을 다운로드하고 Fast Mode를 켭니다). 이것이 전체적인 핵심입니다: 더 나은 추론 (inference)이 아니라, 더 적은 조립입니다.

만약 당신이 터미널과 Ollama를 사용하는 워크플로우를 사랑한다면, 솔직히 이 앱이 필요하지 않을 수도 있습니다. 하지만 부모님, 아이, 또는 동료에게 오프라인에서 바로 작동하는 단일 앱을 건네주고 싶다면, 그것이 바로 제가 이 앱을 만든 대상입니다.

솔직하게 밝히고 싶은 점

저는 무엇인가를 판매하고 있지 않습니다. 프로 티어(pro tier)도, 대기 명단(waitlist)도, "영업 담당자에게 문의"도 없습니다. 이것은 개인 프로젝트이며 비상업적 라이선스 (PolyForm)에 따라 개인적인 용도로는 무료입니다. 그리고 이 서브레딧(sub)의 구성원들이 당연히 관심을 가질 부분이라 명확히 말씀드리자면, 현재는 **폐쇄 소스 (closed-source)**입니다. 저는 코드가 아닌 빌드된 앱을 .dmg 형태로 배포합니다. 또한 폐쇄형 앱의 개인정보 보호 주장에 대해 회의적인 태도를 갖는 것은 당연하므로, 제 말만 믿지는 마세요. Little Snitch이나 프록시(proxy)를 지정하여 지켜보십시오. 외부로 데이터를 전송하는 일은 없습니다.

한계점에 대해서도 솔직하게 말씀드립니다. Apple Silicon 및 macOS 15에서만 작동하며 (7~8B 모델을 실행하려면 최소 16GB RAM 필요, 32GB는 약 30B 모델 가능, 64GB는 대규모 모델 가능), 다듬어지지 않은 부분들이 있습니다. 또한 어려운 기술적 부분들은 제가 만든 것이 아닙니다. 이 앱은 전적으로 MLX, llama.cpp, mlx-vlm, 그리고 mlx-communityunsloth의 모델 변환 기술에 기반하고 있습니다. 저는 주로 그들의 작업물을 제 어머니도 열 수 있는 무언가로 연결했을 뿐입니다.

만약 직접 사용해 보신다면, 어떤 부분이 부족한지 꼭 알려주셨으면 좋겠습니다. 버그 리포트를 위한 원클릭 진단 내보내기 (one-click diagnostics export) 기능이 있으며, "왜 그냥 Ollama를 쓰지 않느냐"는 질문을 포함하여 모든 피드백을 읽고 있습니다 (그 부분에 대해서도 기꺼이 논의할 준비가 되어 있습니다).

다운로드, 소스 코드 및 변경 로그 (changelog): https://github.com/Flor1an-B/Ka1zen/releases/latest

읽어주셔서 감사합니다. 그리고 이 서브레딧(sub) 덕분에, 눈팅만 하면서도 부끄러울 정도로 많은 것을 배웠습니다.
submitted by /u/LEFBE
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0