LLM을 활용한 동적 NPC 대화 구축 방법

저희는 Vantage Digital Labs의 소규모 팀으로, 게임 개발자를 위한 AI 툴링을 구축하고 있습니다. 저희의 첫 번째 제품은 LLM (Large Language Models) 기반의 NPC 대화 엔진이며, 현재 몇 달 동안 얼리 액세스(Early Access)로 운영 중입니다. 그동안 배운 점들을 공유합니다.

문제점

전통적인 NPC 대화는 수작업으로 작성됩니다. 모든 대사, 모든 분기, 그리고 가능한 모든 플레이어 입력에 대한 모든 응답을 직접 써야 합니다. 50명의 NPC가 등장하는 RPG를 만드는 소규모 스튜디오의 경우, 이는 수천 줄의 대사에 해당하며 모두 정적(Static)입니다.

만약 NPC가 동적으로 응답할 수 있다면 어떨까요? 상인이 미리 작성된 3개의 대사를 반복하는 대신, 플레이어가 하는 말에 실제로 반응할 수 있다면 어떨까요?

우리의 아키텍처 (Architecture)

저희는 단순하지만 효과적인 파이프라인을 채택했습니다:

플레이어 입력 (Player Input) → 컨텍스트 빌더 (Context Builder) → LLM API → 응답 파서 (Response Parser) → 게임 엔진 (Game Engine)
                    ↑                              |
                    └──── 메모리 / 상태 (Memory / State) ──────────┘

컨텍스트 빌더 (Context Builder) — NPC의 성격, 위치, 지식 및 최근 대화 기록을 시스템 프롬프트(System Prompt)에 주입합니다.

LLM API — 처음에는 GPT-4o-mini로 시작하여, 이후 DeepSeek과 Qwen을 테스트했습니다. 비용에 민감한 인디 게임의 경우, 프롬프트(Prompt)만 잘 구성되어 있다면 더 작은 모델들도 놀라울 정도로 잘 작동합니다.

응답 파서 (Response Parser) — 대화 텍스트와 함께 감정 태그([emotion:happy]) 및 행동 태그([action:wave])와 같은 메타데이터를 추출합니다.

메모리 (Memory) — NPC가 과거의 상호작용을 "기억"할 수 있게 해주는, 관련성 점수(Relevance-scored)가 매겨진 단순한 저장소입니다.

실제로 중요한 것

몇 달간 이를 운영하며 발견한 사실은 다음과 같습니다:

1. 시스템 프롬프트 엔지니어링 (System Prompt Engineering) > 모델 크기

잘 설계된 시스템 프롬프트를 사용하는 7B 모델이 일반적인 프롬프트를 사용하는 GPT-4보다 낫습니다. 저희는 모델 선택보다 성격 정의와 컨텍스트 주입(Context Injection)에 더 많은 시간을 할애합니다.

당신은 흥정하기를 좋아하는 친절한 드워프 상인 Goron입니다.
위치: 시장 (Marketplace)
당신이 알고 있는 것: 가격, 희귀 아이템, 지역 소문
...

짧고, 구체적이며, 제약이 있어야 합니다. 그것이 전부입니다.

2. 응답 파싱(Response Parsing)의 과소평가

LLM은 말이 많습니다. 하지만 게임에는 구조화된 출력(Structured output)이 필요합니다. 저희는 간단한 태그 추출 방식을 사용합니다:

const emotionMatch = raw.match(/\[emotion:(\w+)\]/i);
const actionMatch = raw.match(/\[action:([^\]]+)\]/i);
const text = raw.replace(/\[(emotion|action):[^\]]*\]/gi, '').trim();

이를 통해 애니메이션 트리거를 위한 메타데이터와 함께 깔끔한 대화 텍스트를 얻을 수 있습니다.

3. 품질보다 중요한 것은 지연 시간(Latency)

플레이어는 NPC의 응답을 위해 3초 동안 기다려주지 않습니다. 저희는 총 지연 시간을 500ms 미만으로 유지하는 것을 목표로 합니다. 이는 다음을 의미합니다:

응답 스트리밍 (Streaming responses, 텍스트가 생성되는 대로 표시)
중요도가 낮은 NPC를 위한 더 작은 모델 사용
일반적인 응답에 대한 공격적인 캐싱 (Caching)

4. 대화 기록 윈도잉(Conversation History Windowing)

전체 대화 기록을 보내는 것은 비용이 많이 들고 느립니다. 저희는 마지막 10번의 교환(Exchanges)까지만 윈도잉(Windowing)하며, 중요한 사실에 대해서는 별도의 메모리 시스템을 사용합니다.

if (history.length > 20) history.splice(0, 2);

단순하고, 효과적이며, 저렴합니다.

비용 현실 점검

세션당 5명의 NPC와 대화하는 일일 활성 사용자(DAU) 1,000명 규모의 게임의 경우:

GPT-4o-mini: 일일 약 $2-5
DeepSeek V3: 일일 약 $0.50-1
자체 호스팅 7B 모델 (Self-hosted 7B): 약 $0 (기존 게임 서버 활용 시)

인디 게임의 경우 경제성이 충분합니다. 무료는 아니지만, 모든 언어에 대해 대화 작가를 고용하는 것보다는 저렴합니다.

우리가 여전히 해결 중인 미결 과제들

일관성 (Consistency) — 수천 번의 대화 속에서 어떻게 NPC의 성격을 안정적으로 유지할 것인가?
다국어 (Multilingual) — 프롬프트를 5배로 유지하지 않고도 5개 이상의 언어를 지원하는 방법
음성 (Voice) — LLM 대화와 실시간 TTS(Text-to-Speech)의 결합 (현재 실험 중)

직접 체험해 보세요

저희 웹사이트에는 저희 엔진으로 구동되는 NPC와 대화할 수 있는 라이브 데모가 준비되어 있습니다. 이는 정해진 답변(Canned responses)이 아닌, 실제 추론 백엔드(Inference backend)를 통해 실행됩니다.

게임을 개발 중이며 AI NPC를 실험해보고 싶다면, 현재 얼리 액세스(Early access) 단계이므로 언제든 편하게 이야기 나누어 주세요.

Vantage Digital Labs는 게임 팀을 위한 AI 툴링을 구축합니다. vantage-digital.online

Insights

LLM을 활용한 동적 NPC 대화 구축 방법 — 얼리 액세스(Early Access)를 통한 교훈

요약

핵심 포인트