Zenn헤드라인2026. 05. 17. 21:08

MacBook Pro on The Air Pattern ｗ 혹은 로컬 LLM의 현실과 희망

요약

LLM 프로바이더들의 과금 방식 변경으로 인해 AI 에이전트 자율 구동 생산 방식에 대한 재검토가 필요해졌습니다. 이에 필자는 비용 통제가 가능한 로컬 LLM(Local LLM) 환경을 대안으로 제시하며, MacBook Pro와 ollama, qwen3.6 등을 활용한 구성과 실행 과정을 소개합니다. 다만, 고부하 작업 시 발생하는 발열 문제로 인해 'MacBook Pro on The Air Pattern'이라는 임시적인 냉각 방식을 도입하여 자율 구동의 안정성을 확보하는 것이 핵심 내용입니다.

핵심 포인트

LLM 프로바이더의 과금 방식 변경은 AI 에이전트 자율 구동 생산 방식에 변화를 요구함.
로컬 LLM(Local LLM) 환경은 비용 통제가 가능하여 미래의 필수적인 자율 구동 환경으로 주목받음.
MacBook Pro와 ollama, qwen3.6 등을 조합하여 로컬 LLM 에이전트 환경을 구축할 수 있음.
고부하 작업 시 발생하는 발열 문제 해결을 위해 외장 공랭 장치(Air cooling device)를 활용하는 'MacBook Pro on The Air Pattern'이 필요함.

서론

최근 LLM 프로바이더의 과금 방식 변경(주1, 주2)의 영향으로, AI 에이전트를 자율적으로 구동시키는 생산 방식을 구축해 온 사람들은 생산 방식의 재검토를 강요받고 있습니다.

주1 GitHub의 요청 횟수 과금에서 LLM 실행량 과금으로의 변경

주2 Claude의 code -p 등 일부 이용 방법에 대한 별도 크레딧 프레임 신설

사실 저 또한 재검토를 강요받은 사람 중 한 명입니다.

AI와 함께 인간이 작업하는 것도 생산 방식 중 하나입니다. 하지만 인간이 지시를 내리면 AI가 자율적으로 구동하여 결과물을 작성하는 방식이야말로 미래의 생산 패러다임이라고 믿는 저에게, 생성 AI를 자율적으로 구동시키는 환경은 필수적입니다.

생성 AI를 자율적으로 구동시키기 위해서는 생성 AI 이용료를 제어할 수 없으면 지속성을 기대할 수 없습니다.

이용료를 제어하면서 AI를 자율적으로 구동시키는 유망한 환경 중 하나가 로컬 LLM(Local LLM)이라고 판단하여, 본 문서에서는 로컬 LLM의 현실과 희망의 실례를 에피소드를 포함하여 가능한 한 재미있게 소개하겠습니다.

로컬 LLM

검증 중인 로컬 LLM 환경의 구성입니다. MacBook Pro + ollama + qwen 3.6 + GitHub Copilot CLI로 실행하고 있습니다.

하드웨어

저는 Apple M1 MacBook Pro 14 inch를 사용하고 있습니다. 5년 전에 큰맘 먹고 산 일품입니다.

이 일품의 훌륭한 점은 유니파이드 메모리 아키텍처(Unified Memory Architecture)가 채택되었다는 점입니다. 32GB의 메모리를 CPU뿐만 아니라 GPU에서도 사용할 수 있기 때문에, 로컬 LLM의 VRAM(GPU 메모리) 인텐시브(Intensive)한 처리에 메모리를 할당할 수 있습니다.

LLM 추론 엔진

ollama를 사용합니다. 비교적 용이하게 로컬 LLM을 실행할 수 있습니다.

LLM 모델

% ollama show qwen3.6
Model
architecture qwen35moe
...

qwen35moe라고 나오네요. 베이스가 같기 때문일까요.

GitHub Copilot CLI

Docker 상에서 GitHub Copilot CLI를 기동하여, 호스트의 ollama API를 실행하도록 하고 있습니다.

평소 클라우드의 고성능 LLM을 사용할 때는 리소스를 효율적으로 사용하기 위해 호스트 상에서 실행하지만, 로컬 LLM이 어떤 움직임을 보일지 미지수였기에 Docker 내부에서 동작하도록 설정했습니다.

환경 변수로 LLM 엔드포인트(Endpoint)를 지정함으로써 GitHub Copilot CLI에서 로컬 LLM을 호출할 수 있습니다.

COPILOT_PROVIDER_BASE_URL="http://host.docker.internal:11434/v1"
COPILOT_MODEL="qwen3.6"

host.docker.internal은 컨테이너 내부에서 호스트 컴퓨터로 연결되는 도메인 이름입니다.

실행해 보기

GitHub Copilot CLI를 실행해 보니, GPU 가동률이 95-100%가 됩니다. 거의 풀 가동 상태입니다.

RAM도 한계인 것처럼 보입니다.

실행하면 Mac이 점점 뜨거워집니다. 팬(Fan)이 비명을 지르기 시작합니다. Mac의 UI는 지연(Latency)이 눈에 띄어 조작이 어려워졌습니다.

그럼에도 불구하고 GitHub Copilot CLI와 ollama는 계속해서 로그를 출력하고 있습니다.

Amphetamine을 이용하여 디스플레이를 닫아도 동작이 계속됨을 확인했으므로, 세로형 스탠드에 MacBook Pro를 꽂아두고 결과물이 완성될 때까지 방치합니다.

별도의 문장에서 기재한 방법으로, 완성되면 스마트폰으로 알림이 오도록 설정해 두었습니다.

이로써 AI를 자율적으로 구동시킨다는 목적은 달성한 것처럼 보였습니다.

하지만.

잠시 방치한 후 상태를 확인해 보니, 어느샌가 Mac이 꺼져 있었습니다.

원인은 배터리 잔량이 다 떨어졌기 때문이었습니다. 전원을 연결하여 급전은 계속되고 있었음에도 불구하고 말입니다.

원인은 온도 상승으로 인해 배터리 충전이 중단되었기 때문인 것으로 추측됩니다.

배터리 잔량이 본 적 없는 속도로 줄어듦과 동시에, "배터리는 충전 중지됨"이라는 표시가 떴습니다.

아래는 배터리 충전 후 GitHub Copilot CLI를 재실행했을 때의 배터리 상황 캡처입니다.

Claude Code + 로컬 LLM은 동작하고 있지만, 이 상태로는 AI의 자율 구동이 제대로 이루어지지 않습니다.

이 문제를 해결하는 프랙티스(Practice)가 바로 제목의 "MacBook Pro on The Air Pattern"입니다. 직후의 w는 웃음(草)입니다.

MacBook Pro on The Air Pattern

공기청정기 위에 MacBook Pro를 올려두어, 외장 공랭 장치(Air cooling device)로 사용해 봅니다. 공기청정기는 몇 년 전에 구매한 Mi 공기청정기 3H입니다. 상단의 공기 배출구가 평면이라, MacBook Pro를 안정적으로 설치할 수 있을 것으로 기대됩니다.

지금의 저에게는 이것이 최선입니다.

눈에 띄게 MacBook Pro의 온도가 내려갔고, 무사히 배터리 충전도 되기 시작했습니다.

동작도 안정되었으며, 이 문장 또한 AI를 자율 주행(Self-running)시키면서 동일한 머신에서 작성할 수 있습니다.

항상 강제적으로 냉각시키는 것, 이것이 새로운 패러다임(Paradigm)을 지탱하는 프랙티스(Practice)였습니다.

이 방법의 실시은 자기 책임하에 진행해 주십시오. 로컬 LLM(Local LLM)을 제한된 리소스(Resource)로 구동하기 위한 고육지책이라고는 하나, 머신에 친화적이라고는 도저히 생각할 수 없는 이용 방법입니다.

로컬 LLM으로 에이전트(Agent)는 동작하는가?

저의 M1 MacBook Pro × 36.0B qwen3.6 환경에서는, 간신히 GitHub Copilot CLI를 구동할 수 있는 수준이 솔직한 심정이며, 내부적인 명령어를 틀리는 등의 일이 빈번하게 발생하고 있습니다.

또한, 병렬 처리는 무리입니다. 에이전트 1개로도 벅찹니다. AI에 의존하지 않는 처리(테스트 실행 시간 등, LLM의 추론(Inference)보다 에이전트의 실제 작업이 많은 처리)라면 어떻게든 될지도 모르겠지만, 조정이 꽤나 어렵습니다.

하지만 하네스(Harness)를 제대로 설치하고 충분한 시간을 부여한다면, 나름대로의 결과물은 나올 수 있을 것이라는 희망을 품고 있습니다. 무엇보다 AI는 24시간 일하게 해도 불평을 하지 않으니까요.

현재 새로운 AI 자율 주행 환경으로서의 로컬 LLM을 확립하기 위해, 열심히 노하우를 축적하며 조정 중입니다.

속보를 기대해 주세요.

끝까지 읽어 주셔서 정말 감사합니다.

계속해서 로컬 LLM을 통한 AI 자율 주행에 도전해 나가겠습니다. 진전이 있으면 다시 보고드리겠습니다.

이 문장은 오랜만에 AI에게 쓰게 하지 않고 저 자신이 직접 작성했습니다. ("일절 AI에는 의존하지 않고"라고 기재한 뒤, 기술 정보 조사 등에는 AI를 이용하고 있다는 사실이 떠올라 톤다운(Tone-down)된 문장으로 변경했습니다.)

AI 자동 생성 콘텐츠

원문 바로가기