enescingoz/colab-llm
요약
Google Colab에서 Ollama와 Cloudflare Tunnel을 사용하여 로컬 LLM을 호스팅하고 외부 API로 노출하는 방법을 안내합니다. VS Code의 ROO Code 확장 프로그램과 통합하여 원격으로 LLM 코딩 지원을 받을 수 있는 효율적인 개발 환경 구축 방법을 다룹니다.
핵심 포인트
- Ollama를 통해 Colab에서 Qwen, LLaMA3 등 다양한 모델 실행 가능
- Cloudflare Tunnel을 사용하여 보안 공용 URL로 API 노출
- VS Code의 ROO Code 확장 프로그램과 연동하여 원격 코딩 지원 활용
- T4 GPU 런타임을 활용한 비용 효율적인 LLM 테스트 환경 구축
Google Colab에서 로컬 LLM 모델을 실행하고 API를 통해 원격으로 접속하세요 — Ollama와 Cloudflare Tunnel을 사용하여 가볍고 비용 효율적인 개발 및 테스트를 수행하기에 이상적입니다.
✅ 어디에서나 Colab에서 호스팅된 LLM API에 접속할 수 있습니다 — VS Code 내에서 ROO Code 확장을 사용하여 접속하는 것도 가능합니다!
-
🔥 Ollama를 사용하여 Colab에서 고급 LLM (Qwen, LLaMA3, Mistral, DeepSeek 등) 실행
-
🌐
cloudflared를 사용하여 보안 공용 URL을 통해 모델 노출 -
🧑💻 원활한 코딩 지원을 위해 VS Code의 ROO Code와 통합
-
✅ 터널링을 시작하기 전 Ollama가 준비될 때까지 자동으로 감지 및 대기
-
💡 단순하고 전문적이며 재사용 가능한 설정
-
Google Colab 계정
-
GPU 런타임 (T4 High-RAM 이상 권장) - Cloudflare 터널링을 위한 별도의 설치나 클라우드 계정 불필요
-
백그라운드에서 Ollama를 설치 및 실행 - 선택한 모델 (예:
maryasov/qwen2.5-coder-cline:7b-instruct-q8_0)을 가져옴(Pull) - Ollama가 실행되고 응답할 때까지 대기 -
http://localhost:11434를 노출하기 위해 Cloudflare tunnel 시작 -
즉시 사용 가능한 공용
.trycloudflare.comURL 출력
Colab에서 로컬 LLM을 실행하고 공용 API를 통해 접속하려면 다음 단계를 따르세요:
-
.ipynb노트북을 가져오기 - colab.research.google.com을 열고 노트북을 업로드합니다. -
런타임을
T4 GPU로 선택 -
Runtime > Change runtime type으로 이동
→ 다음을 선택합니다:- 하드웨어 가속기 (Hardware accelerator): GPU
- GPU 유형 (GPU type): T4
-
참고: Colab GPU 세션은 연결이 끊기기 전까지 최대 약 3시간 동안 지속됩니다. 그 후에는 다시 시작할 수 있습니다.
-
모든 셀 실행 -
Runtime > Run all을 클릭합니다. -
셀이 완료될 때까지 기다립니다. 모델 다운로드에는 몇 분이 소요될 수 있습니다.
-
7단계에서 API 작동 여부 확인 - 생성된 공용
trycloudflare.comURL이 표시됩니다. 셀에서 테스트용curl요청도 실행됩니다. -
생성된 공용 URL이 표시됩니다.
공용 링크를 클릭하세요 - 다음과 같은 메시지가 표시되어야 합니다:
“Ollama is running” - 이는 API가 활성화되었으며 curl 또는 VS Code의 ROO Code와 같은 도구에서 사용할 준비가 되었음을 확인해 줍니다.
-
다음과 같은 메시지가 표시되어야 합니다:
-
ROO Code 확장 프로그램 설치
-
확장 프로그램 설정 열기
-
API Provider를 Ollama로 선택 - Colab에서 제공된 공용 URL을 붙여넣으세요 (예:
https://bold-sky-1234.trycloudflare.com)
(링크 끝에/를 포함하지 마세요) - 사용할 모델을 선택 -
완료! 이제 로컬 VS Code에서 Colab에 호스팅된 모델에 프롬프트를 보낼 수 있습니다 💬
이슈(issues)를 생성하거나, 개선 사항을 제안하거나, 풀 리퀘스트(pull requests)를 제출해 주세요. 로컬 모델 호스팅을 모두가 쉽게 사용할 수 있도록 만들어 봅시다!
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Coding Assistants의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기