법률 문서를 위한 로컬 LLM: 잘 작동하는 것과 그렇지 않은 것 (솔직한 리뷰)

실제 법률 문서(계약서, NDA, 서비스 계약서)를 대상으로 여러 로컬 LLM을 테스트한 결과, 실제로 유용한 부분과 로컬 모델이 부족한 부분에 대한 솔직한 분석을 공유합니다.

요약 (TL;DR): 로컬 LLM은 1차 정보 추출 (first-pass extraction)은 잘 수행합니다. 하지만 복잡한 법률적 해석 (legal interpretation)은 아직 어렵습니다.

법률 문서에 로컬 LLM을 사용하는 이유는 무엇인가요?

컴플라이언스 (compliance, 준수) 문제는 실재합니다:

고객 계약서를 ChatGPT에 업로드하는 것은 NDA (비밀유지계약) 조항을 위반할 수 있습니다.
GDPR (유럽 일반 데이터 보호 규칙) 제28조는 데이터 처리 계약 (data processing agreement)을 요구하지만, 대부분의 클라우드 AI 제공업체는 개인 사용자를 위한 계약을 제공하지 않습니다.
많은 로펌은 고객 문서를 위해 클라우드 AI를 사용하는 것을 금지하는 명시적인 정책을 가지고 있습니다.

Ollama를 통한 로컬 모델은 이러한 컴플라이언스 문제를 해결합니다. 문제는 이 모델들이 유용할 만큼 충분히 성능이 좋은가 하는 점입니다.

테스트 설정

테스트된 모델: llama3.1:8b, llama3.1:70b (Q4), qwen2.5:7b, qwen2.5:14b, mistral:7b
문서 유형: NDA (비밀유지계약서), 서비스 계약서, 컨설팅 계약서, 임대차 계약서
하드웨어: 16GB RAM (8b 모델), 32GB RAM (70b)
평가: 변호사 친구의 수동 검토 (비과학적이지만 실무적인 평가)

잘 작동하는 것 ✅

1. 구조화된 정보 추출 (Extracting structured information)

작업: "모든 당사자와 그들의 역할을 나열하세요."

모든 8b 이상의 모델은 이를 안정적으로 수행합니다. 출력 결과:

당사자 (PARTIES):
- Acme Corp ("회사") — 서비스 제공자
- John Smith Consulting LLC ("컨설턴트") — 독립 계약자
...

정확도: 표준 계약서 기준 약 95%.

2. 주요 날짜 추출 (Key date extraction)

작업: "모든 날짜와 마감일을 나열하세요."

잘 작동합니다. 모델은 효력 발생일, 종료일, 통지 기간, 지급 기한 등을 포착합니다.

누락률: 복잡한 조건부 조항에 숨겨진 날짜의 경우 약 5-10%.

3. 지급 조건 요약 (Payment terms summary)

작업: "지급 조건을 요약하세요."

표준적인 지급 구조에서는 신뢰할 수 있습니다. 다음 항목들을 처리합니다:

고정 수수료 계약 (Fixed fee contracts)
마일스톤 기반 지급 (Milestone-based payments)
리테이너 계약 (Retainer agreements)
Net-30/60/90 조건

어려움을 겪는 부분: 복잡한 다단계 가격 책정, 언아웃 (earn-out) 구조, 수익 배분 공식.

4. "이 계약서에 경업 금지 조항(non-compete clause)이 있나요?"

단순한 예/아니오 질문은 테스트한 모든 모델에서 잘 작동합니다. 빠른 분류(triage) 작업에 유용합니다.

5. 특정 섹션에 대한 평이한 언어 요약 (Plain-language summary)

작업: "7조를 쉬운 언어로 설명해 주세요."

이 부분이야말로 로컬 LLM이 비법률가들에게 진정으로 도움이 되는 지점입니다. 법률 용어(legalese)를 쉬운 영어로 번역하는 것은 작은 모델들에게도 강력한 활용 사례(use case)입니다.

작동하지 않는 것 ❌

1. 복잡한 법적 해석

작업: "이 면책 조항(indemnification clause)이 계약 상대방을 불합리한 위험에 빠뜨리나요?"

모델들은 애매모호한 답변을 내놓거나, 틀린 내용을 자신 있게 말합니다. 위험 평가(risk assessment) 용도로 사용하지 마세요.

2. 긴 계약서 내의 모든 특이 조항 식별

50페이지 이상의 계약서에서 모델은 문서 뒷부분에 나타나는 특이한 규정들을 놓칩니다. 여기서는 컨텍스트 윈도우(context window)의 제한이 문제가 됩니다.

해결책: 섹션별로 나누어 처리한 다음, 이를 종합(synthesize)하세요.

3. 두 계약서 비교

"이 비밀유지계약서(NDA)가 표준 NDA와 어떻게 다른가요?"라는 질문은 모델이 신뢰할 수 있는 내부 참조 기준을 가지고 있어야 합니다. 결과가 일관되지 않습니다.

4. 관할권 특정 분석 (Jurisdiction-specific analysis)

특정 판례나 주(state)별 규정에 대한 지식이 필요한 모든 작업은 신뢰할 수 없습니다.

법률 문서를 위한 모델 비교

모델	속도	추출 정확도	조항 식별	추천 용도
qwen2.5:3b	빠름	85%	75%	빠른 분류, 8GB 사양 기기
...

올바른 활용 사례

법률 문서를 위한 로컬 LLM = 변호사가 아니라, **1차 검토 보조 도구(first-pass reading assistant)**입니다.

실질적인 워크플로우(workflow):

로컬 LLM 실행 → 2~3분 내에 구조화된 추출(structured extraction) 결과 획득
요약본을 검토하여 심층 독해가 필요한 섹션 식별
직접(또는 실제 변호사와 함께) 심층 독해 수행

절약되는 시간: 실제로 검토해야 할 5가지 사항을 찾기 위해 40페이지 분량의 계약서를 읽는 시간이 90분에서 15분으로 단축됩니다.

가장 잘 작동하는 시스템 프롬프트 (System prompt)

수많은 반복 실험 끝에, 다음 구조가 가장 신뢰할 수 있는 법률 문서 분석 결과를 생성합니다:

당신은 법률 문서 분석가입니다. 당신의 임무는 정보를 해석하는 것이 아니라 추출(EXTRACT)하는 것입니다.

제공된 계약서에 대해, 다음의 정확한 섹션들을 포함하는 구조화된 보고서를 생성하십시오:
...

전체 도구 (Full tool)

저는 이 워크플로우를 기반으로 Windows 앱을 제작했습니다: 로컬 PDF/DOCX 처리, 10가지 도메인 모드, 여러 계약서에 대한 배치 처리 (Batch processing) 기능을 포함합니다. https://journeyer376.gumroad.com/l/ussytd에서 이용 가능합니다.

이 앱은 클라우드 도구의 컴플라이언스 (Compliance) 리스크 없이 AI의 생산성 이점을 누리고 싶은 변호사와 컨설턴트를 대상으로 합니다.

여러분은 어떤 문서 유형에 로컬 LLM을 사용하고 계신가요? 다른 분들의 테스트 케이스가 있다면 궁금합니다.