공장의 데이터를 외부로 유출하지 않고 AI를 구동하기: Ollama와 자택 서버만으로 구축하는 로컬 LLM 환경

요약

데이터 보안이 중요한 제조업 현장을 위해 Ollama와 Docker를 활용하여 로컬 LLM 환경을 구축하는 방법을 소개합니다. 자택 서버를 이용해 외부 유출 없이 업무 데이터를 처리하는 구성 방식과 RAG 적용 사례를 다룹니다.

공장의 데이터를 외부로 유출하지 않고 AI를 구동하기: Ollama와 자택 서버만으로 구축하는 로컬 LLM 환경

제조업 현장에서는 고객 정보·수주 데이터·생산 지시를 단 한 번도 외부로 내보내고 싶지 않은 경우가 많다.

나는 목공소의 사업 승계를 통해 "클라우드 AI는 편리하지만, 이 현장의 데이터는 내보낼 수 없다"는 것을 실감했다.

그래서 Ollama + 자택 서버 x1lite x Docker만으로, 업무에 잠재된 문의 사항을 AI로 처리하는 최소한의 환경을 만들었다.

이 기사에서는 그 구성과 효과, 그리고 실패했던 점을 공개한다.

현장의 상담 예시:

여기에 공통적인 것은 **"외부로 나가면 곤란한 데이터를 다룬다는 것"**이다.

상위 클라우드 LLM도 있지만, 여기서는 x1lite의 로컬 GPU/CPU에서도 동작하는 Ollama를 선택했다.

x1lite (Beelink EliteMini / Ubuntu 24.04)
└─ Docker Compose
├─ ollama (llama3 + 추가 모델)
...

services:
ollama:
image: ollama/ollama:latest
...

프라이버시 측면의 포인트

여전히 현장의 업무 데이터는 Obsidian에 메모되어 있거나, docx 파일로 저장되어 있다.

그것들을 RAG(Retrieval-Augmented Generation)적으로 사용하는 설계로 만들었다:

평가 플로우를 CLI로 돌리고 있다:

import subprocess
import json
from pathlib import Path
...

실제로 제조업에서 사용해 본 결과

이용 시나리오	사용 가능률	과제
검사 기록 요약	8할	전문 용어의 추가 학습이 필요
...

즉 "판단의 뒷받침"으로서 충분히 사용할 수 있지만, 단독으로 확정짓기는 어렵다는 현실이 있다. 하지만 현장에서는 **"재료를 뽑아주는 것만으로도 도움이 된다"**는 목소리가 크다.

GPU 없이 llama3를 풀(Full)로 구동했다 → 1회 답변당 30초 이상 소요 → Qwen2.5-7b + GGUF 소량 양자화(Quantization)로 변경
Obsidian의 내용을 통째로 던졌다 → 토큰 Limit 오버 → 경로를 /srv/common/obsidian/wiki/에서 자동으로 필터링하는 구조로 변경
모델을 하나로 너무 한정했다 → 현장마다 적합한 프롬프트/태스크가 다름 → 용도별로 가벼운 파인튜닝(Fine-tuning) 프롬프트를 나누는 운용 방식으로 변경

사업을 이어받는 입장에서 생각하면,

라는 두 가지 점이 자연스럽게 요구된다.

Ollama 로컬 LLM은 정확히 그 두 가지를 실현하는 장소로서, 앞으로도 강화할 예정이다. 우선은 "묻는 법"을 정돈하고, 현장의 언어를 프롬프트에 녹여내는 것부터 시작한다.

코바야시 WEB 시스템에서는 제조업 현장에 맞춘 AI 환경 구축 및 Docker 운용을 지원하고 있습니다.

우선 본 기사의 댓글이나 Zenn 프로필(https://zenn.dev/yutaka8484)을 통해 편하게 상담해 주세요.

LinkedIn에서도 상담을 받고 있습니다.

AI 자동 생성 콘텐츠