정신 건강을 해치지 않고 로컬에서 LLM을 실행하는 방법: 개발 워크플로우 가이드

개발 워크플로우(workflow)에 AI를 사용하고 싶지만, 모든 코드 스니펫(code snippet)을 클라우드로 보내고 싶지는 않으신가요? 이해합니다. 개인정보 보호 문제, 지연 시간(latency) 문제, 쌓여가는 API 비용 등 모두 타당한 이유입니다. 제가 실제로 어떻게 이를 설정했는지, 그리고 실제로 무엇이 효과적인지 알려드리겠습니다.

왜 지금 로컬 LLM이 중요한가

클라우드 API는 다음과 같은 상황이 오기 전까지는 훌륭합니다:

민감한 코드를 디버깅(debugging) 중이며, 이를 누군가의 학습 데이터로 사용하고 싶지 않을 때
와이파이(wifi) 연결이 불안정하여 응답을 기다리는 10초가 흐름(flow)을 끊을 때
팀의 API 예산이 예상보다 빠르게 소진될 때
LLM이 그냥... 오프라인 상태를 유지해야 할 때

로컬 LLM은 이러한 문제의 대부분을 해결합니다. 속도가 빠르고, 설정 후에는 무료이며, 코드를 본인만 소유할 수 있습니다.

솔직한 평가: 무엇이 작동하고, 무엇이 작동하지 않는가

실제로 도움이 되는 로컬 모델:

Llama 2 (7B) - 코드 설명 및 간단한 리팩터링 (refactoring)에 놀라울 정도로 유용함
Code Llama - 코드로 특화 학습됨. 일반 모델보다 코드 완성(completions) 및 버그 탐지에 더 뛰어남
Mistral 7B - 빠르며, 미들웨어(middleware) 및 아키텍처(architecture) 질문에 대해 괜찮은 추론 능력을 보여줌
Phi 3 - 작지만 빠른 디버깅 직관을 얻기에 효과적임

잘 작동하지 않는 것:

진정으로 복잡한 문제를 디버깅하도록 요청하는 것 (수백 줄 이상의 컨텍스트(context)를 다루는 데 어려움을 겪음)
문서를 명시적으로 제공하지 않는 한, 모델이 사용자의 코드베이스(codebase)를 학습할 것이라고 기대하는 것
실제 창의력이 필요한 시스템 설계(system design)에 사용하는 것 (교과서적인 솔루션만 제안하는 경향이 있음)

설정 (솔직한 이야기)

Ollama 또는 LM Studio가 필요합니다. 저는 매우 단순하고 통합 옵션이 좋은 Ollama를 추천합니다.

# Mac/Linux
brew install ollama
ollama run llama2
...

그게 전부입니다. 이제 http://localhost:11434에서 실행되는 로컬 API를 갖게 되었습니다.

워크플로우에 통합하기

옵션 1: CLI (빠른 질문을 위한 가장 빠른 방법)

워크플로우에 통합하기

옵션 1: CLI (빠른 질문을 위한 가장 빠른 방법)

# 로컬 LLM에 접속하기 위해 curl 사용
curl http://localhost:11434/api/generate -d '{ 
  "model": "codellama",
...

옵션 2: VSCode 확장 프로그램
'Continue' 또는 'Codeium'(로컬에서 실행)을 설치하고 localhost:11434를 가리키도록 설정하세요. 에디터를 벗어나지 않고 자동 완성 기능을 사용할 수 있습니다. 반복적인 패턴에 있어 판도를 바꿀 만한 기능입니다.

옵션 3: 사용자 정의 스크립트
제가 코드 조각을 로컬 LLM으로 파이프하고 응답을 주석 형식으로 포맷하는 작은 Python 래퍼를 작성했습니다. 모든 것을 에디터 흐름 안에 유지할 수 있습니다.

import requests
import sys

...

이 방식이 빛을 발하는 실제 시나리오들

시나리오 1: 자신만의 조건으로 코드 검토하기
밤 2시에 PR(Pull Request)을 검토하는데 클라우드 지연 시간을 기다리고 싶지 않을 때가 있습니다. codellama를 로컬에서 실행하고, diff를 붙여넣은 다음, 몇 초 만에 피드백을 받으세요. 어떠한 API 호출 기록도 남지 않습니다.

시나리오 2: 다른 사람의 코드베이스 학습하기
LLM에게 모듈의 README와 핵심 파일들을 제공하세요. 데이터 흐름을 설명해 달라고 요청합니다. 실제 코드를 가지고 작업하는 것이기 때문에, 일반적인 LLM이 주는 것보다 더 나은 설명을 얻게 됩니다.

시나리오 3: 신속한 프로토타이핑
작은 CLI 도구를 만들고 패턴에 대해 브레인스토밍하고 싶을 때? 로컬 모델은 충분히 빠르기 때문에 빠르게 반복 작업을 할 수 있습니다. 속도 제한(rate limits)이나 비용 걱정 없이, 오직 피드백만 얻으면 됩니다.

겪게 될 문제점들 (Gotchas)

메모리: 7B 모델조차 원활하게 실행하려면 8GB 이상의 RAM이 필요합니다. 만약 16GB 이상을 가지고 있다면 최고입니다. 메모리를 최대로 사용하고 있다면, Phi 3 (3B)가 더 작지만 여전히 유용합니다.

GPU 가속: 모델을 처음 실행할 때는 느립니다. 하지만 GPU를 가지고 있다면 Ollama가 이를 활용합니다. 이것이 응답당 시간이 30초와 3초의 차이를 만듭니다.

컨텍스트 창 (Context Window): 이 모델들은 약 4K~8K 토큰에서 한계에 도달합니다. 전체 코드베이스를 입력할 수는 없습니다. 구체적으로 작업하는 방식으로 우회하세요. 예:

스스로에게 솔직해지세요:

최첨단 추론 능력 (State-of-the-art reasoning, 예: Claude, GPT-4)이 필요하다면, 로컬 모델은 경쟁 상대가 되지 않습니다.
머신러닝 (ML) / 데이터 과학 (Data science) 작업을 수행하며 정교한 분석이 필요하다면, 클라우드 LLM이 더 낫습니다.
인터넷 연결이 안정적이고 코드 보안을 서비스 제공업체에 맡길 수 있다면, 클라우드의 편리함이 그만한 가치가 있을 것입니다.

저는 일상적인 개발에는 로컬을 사용하고, 어려운 문제에는 클라우드를 사용합니다. 두 세계의 장점을 모두 취하는 방식이죠.

이번 주의 빠른 성과 (Quick Wins)

Ollama를 설치하고, ollama pull codellama를 실행하세요.
코드 스니펫(Code snippet) 하나를 테스트해 보세요: 현재 프로젝트에서 혼란스러운 부분을 설명해 달라고 요청해 보세요.
마음에 든다면, 다음 주에는 에디터(Editor)에 통합해 보세요.
직접 경험하며 측정해 보세요. 제 말을 무조건 믿지 마시고요.

전체 설정에는 15분밖에 걸리지 않습니다. 설령 정기적으로 사용하지 않더라도, 무엇이 가능한지는 알게 될 것입니다.

Insights

정신 건강을 해치지 않고 로컬에서 LLM을 실행하는 방법: 개발 워크플로우 가이드

요약

핵심 포인트

정신 건강을 해치지 않고 로컬에서 LLM을 실행하는 방법: 개발 워크플로우 가이드

왜 지금 로컬 LLM이 중요한가

솔직한 평가: 무엇이 작동하고, 무엇이 작동하지 않는가

설정 (솔직한 이야기)

워크플로우에 통합하기

워크플로우에 통합하기

이 방식이 빛을 발하는 실제 시나리오들

겪게 될 문제점들 (Gotchas)

이번 주의 빠른 성과 (Quick Wins)

댓글

Fiserv와 BP를 포함한 주유소 운영업체들, 미국 내 매장에 불법 전자담배 취급 주의 경고

AI의 차세대 승자를 찾기 위한 탐색이 휴일로 단축된 주간의 주식 시장을 정의하다

부산 센텀시티의 28년 된 공터, '원센텀' PF 조달 완료 및 초고층 복합 타워 건설

현대차 42조 투자 발표문에서 가장 눈에 띈 단어 — "달 탐사 로버"

Fiserv와 BP를 포함한 주유소 운영업체들, 미국 내 매장에 불법 전자담배 취급 주의 경고

AI의 차세대 승자를 찾기 위한 탐색이 휴일로 단축된 주간의 주식 시장을 정의하다

부산 센텀시티의 28년 된 공터, '원센텀' PF 조달 완료 및 초고층 복합 타워 건설

현대차 42조 투자 발표문에서 가장 눈에 띈 단어 — "달 탐사 로버"