무료 AI 대화 앱을 위해 GPT-4 대신 DeepSeek을 선택한 이유

요약

무료 AI 대화 연습 앱 개발자가 비용 효율성을 위해 GPT-4o 대신 DeepSeek-V3를 선택한 사례를 다룹니다. 높은 품질의 단일 세션보다 저렴한 비용으로 많은 사용자가 반복 연습할 수 있는 볼륨 확보에 집중한 전략을 설명합니다.

핵심 포인트

무료 서비스 운영을 위해 세션당 비용 절감이 핵심 결정 요인임
DeepSeek은 페르소나 유지 능력에서 GPT-4o에 근접한 성능을 보여줌
GPT-4o는 미묘한 감정적 맥락 파악에서 더 우수함
품질과 비용 사이의 트레이드오프를 프롬프트 엔지니어링으로 보완함

제가 DeepSeek을 선택한 것은 GPT-4가 나쁘다고 생각해서가 아닙니다. 제가 무료 앱을 만들고 있었고, 무료 앱은 무엇이 실제로 중요한지를 매우 빠르게 가르쳐주기 때문에 선택했습니다.

질문은 간단했습니다. 어떻게 하면 제가 돈을 허공에 날리지 않으면서도 사람들이 많이 연습할 수 있도록 세션 비용을 충분히 저렴하게 유지할 수 있을까?

그 답은 저를 DeepSeek-V3(그리고 특정 작업을 위해 나중에 R1까지)로 이끌었습니다.

진짜 제약 조건은 볼륨(Volume)이었다

이 앱은 대화 연습 도구입니다. 사람들은 모델을 감탄하기 위해서가 아니라, 어려운 대화를 연습하기 위해 들어옵니다.

A single practice session은 8~~15턴(turn) 동안 진행됩니다. 각 턴은 대략 입력(in) 300~~600 토큰(tokens), 출력(out) 100~300 토큰 정도입니다. 이를 활성 사용자당 주당 5번의 세션으로 곱하면 비용이 복리로 쌓이기 시작합니다.

제가 선택할 당시의 계산 방식은 다음과 같았습니다 (2026년 중반 가격 기준):

모델	입력 비용 (1M 토큰당)	출력 비용 (1M 토큰당)	10턴 세션당 비용 (추정치)
GPT-4o	$2.50	$10.00	~$0.04-0.06
...

규모가 커지면, 세션당 $0.005와 $0.05의 차이는 무료 제품을 운영할 수 있느냐, 아니면 세 번의 대화 후에 유료 결제창(paywall)을 도입해야 하느냐의 차이입니다. 저는 사람들이 장벽에 부딪히지 않고 매일 다시 돌아오기를 원했습니다.

DeepSeek이 잘 처리한 부분

DeepSeek은 10~15턴 동안 캐릭터를 유지했습니다. 사용자가 모호하게 행동할 때 반박하기도 했습니다. 우리의 사용 사례(use case)에서 GPT-4o가 했던 것만큼이나 페르소나 휴리스틱(persona heuristics, 시스템 프롬프트 내의 번호가 매겨진 if/then 규칙)을 안정적으로 따랐습니다.

연봉 협상 연습의 경우, 모델은 "그것은 예산에 없습니다"라고 말해야 하며, 사용자가 다양한 접근 방식을 시도하는 동안 세 번의 턴 동안 그 입장을 유지해야 합니다. DeepSeek-V3는 이를 수행했습니다. 완벽하지는 않았지만, 세션이 실제처럼 느껴질 만큼 충분히 안정적이었습니다.

또한 이는 앱을 무료 제품으로 운영하기 더 쉽게 만들었습니다. 저는 세션당 비용을 걱정하지 않고도 사람들이 시도하고, 실패하고, 재설정하고, 다시 시도할 수 있게 되었습니다.

GPT-4가 여전히 더 나았던 부분

GPT-4 (및 4o)는 미묘한 감정적 표현을 다루는 데 더 매끄럽습니다. 대화가 미묘해지거나, 함축된 의미가 많거나, 암시된 의미를 파악해야 할 때 GPT-4가 더 많이 포착합니다.

이별 통보 페르소나(breakup text persona)의 경우, GPT-4o는 사용자의 "친절한" 메시지가 실제로는 수동적 공격적(passive-aggressive)이라는 점을 알아차렸습니다. 약 100회 세션에 걸친 저의 비공식 테스트에서 DeepSeek은 이를 약 20% 더 자주 놓쳤습니다.

하지만 세련됨(polish)이 이 제품의 주요 병목 현상은 아니었습니다. 주요 병목 현상은 사람들이 불편함에 익숙해질 수 있도록 충분한 반복(reps)을 제공하는 것이었습니다.

내가 실제로 신경 썼던 트레이드오프 (Tradeoff)

단 한 번의 아름다운 세션을 원하는가, 아니면 열 번의 유용한 세션을 원하는가?

이 앱의 경우, 언제나 열 번의 유용한 세션입니다.

그래서 저는 더 저렴한 모델을 선택했고, 엔지니어링 노력을 프롬프트 아키텍처(persona seed, heuristics, mode wrapper, boundaries)에 쏟았습니다. 그리고 1배의 볼륨에서 95%의 품질을 내는 것보다, 10배의 볼륨에서 85-90%의 품질을 내는 것이 더 나은 제품이라는 점을 받아들였습니다.

모델도 중요합니다. 하지만 그 모델을 둘러싼 스캐폴딩(scaffolding, 구조물)이 더 중요합니다.

DeepSeek을 작동시키기 위해 변경한 것들

몇 가지 요소가 이 선택을 실행 가능하게 만들었습니다:

더 엄격한 시스템 프롬프트 (Tighter system prompts): DeepSeek은 길고 느슨한 지침이 주어지면 더 많이 이탈합니다. 더 짧은 시드(seed)와 더 많은 번호 매겨진 규칙을 사용했습니다.
더 낮은 온도 (Lower temperature) (역할극의 경우 0.55, 점수 산정의 경우 0.2): 캐릭터 붕괴 없이 페르소나의 다양성을 유지했습니다.
모드 래퍼(mode wrapper) 내 최대 답변 길이 제한: DeepSeek의 기본값은 GPT-4o보다 말이 더 많기 때문에, 명시적으로 제한해야 했습니다.
흐름에 재시도(retries) 기능 구축: 나쁜 응답이 세션을 끝내지 않도록 했습니다. 사용자는 새로운 차례를 얻게 됩니다.

마지막 요소는 어떤 연습용 앱에서도 과소평가되어 있습니다. 경험은 취약하게 느껴져서는 안 됩니다.

나의 실제 교훈

무료 AI 앱을 만들고 있다면, 최고의 모델은 항상 가장 똑똑한 모델은 아닙니다. 사람들이 내일 다시 돌아오게 만드는 모델이 최고의 모델입니다.

자랑할 만한 성과나 벤치마크 차트가 중요한 것이 아닙니다. 앱이 데모가 아닌 도구처럼 사용될 수 있을 만큼 충분히 저렴하게 유지될 수 있느냐가 핵심입니다.

cosskill의 경우, DeepSeek이 더 합리적이었습니다. 덕분에 사람들이 일주일에 한 번 쓰고 잊어버리는 것이 아니라, 일주일에 다섯 번씩 사용하는 무언가를 만들 수 있었습니다. 어차피 연습용 제품(practice product)에게는 이것이 보통 게임의 전부(승패를 결정짓는 핵심)니까요.

제품을 확인하고 싶으시다면, cosskill.com에서 보실 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기