나의 첫 AI 의료 진단 프로젝트: 부트캠프 졸업생을 위한 가이드

저는 약 4개월 전 코딩 부트캠프 (bootcamp)를 졸업했는데, 지금 제가 알아가고 있는 것들 중 일부는 여전히 믿기지 않습니다. 지난주에 한 작은 헬스케어 스타트업을 위해 AI 의료 진단 도구들을 조사해 달라는 요청을 받았는데, 솔직히 말씀드리면? 제가 어떤 상황에 처하게 될지 전혀 몰랐습니다. 하지만 제가 발견한 것들은 정말 놀라웠고, 시작 단계에서 길을 잃은 기분을 느끼는 다른 분들과 이 경험을 공유하고 싶습니다.

상황을 설명해 드릴게요. 부트캠프에 오기 전, 저는 약국 기술자 (pharmacy tech)로 일했습니다. 의사들이 환자 사례를 어떻게 다루는지, 간호사들이 증상을 파악하기 위해 얼마나 분주하게 움직이는지, 그리고 상황들이 얼마나 쉽게 놓칠 수 있는지 직접 보았습니다. 코딩을 배우기 시작했을 때, 제가 다시 그 세계로 돌아오게 될 줄은 상상도 못 했습니다. 다만 이번에는 도구를 만드는 것을 돕는 사람이 되어 돌아온 것이죠. 스타트업 창업자가 "우리는 임상의들이 감별 진단 (differential diagnosis)을 수행하는 것을 돕기 위해 AI를 사용하고 싶습니다"라고 말했을 때 저는 충격을 받았습니다. 저는 말 그대로 자리에 주저앉아 "잠깐만요, 그게 이제 실제로 가능한 일인가요?"라고 말했습니다.

네, 정말로 가능합니다. 그리고 그 가격은 그 존재 자체보다 저를 더 놀라게 했습니다.

커피를 뿜게 만든 숫자들

AI API에 입문할 때 아무도 말해주지 않는 사실이 있습니다. 세상에는 정말 '너무나' 많은 모델이 있다는 것입니다. 제가 결국 사용하게 된 플랫폼인 Global API에는 184개의 모델이 있습니다. 잠시 그 숫자를 곱씹어 보세요. 184개의 서로 다른 모델입니다. 대시보드를 바라보며 "이 중에서 어떻게 하나를 골라야 하지?"라고 생각했던 기억이 납니다.

제가 가장 먼저 한 일은 모든 것을 가격순으로 정렬하는 것이었습니다. 토큰 (Tokens) 비용은 사용하는 모델에 따라 100만 토큰당 0.01달러에서 3.50달러 사이였습니다. 100만 개라니요. CVS에서 알약의 가격을 계산하던 사람으로서, AI가 의료 시나리오를 생각하도록 하는 데 1센트의 아주 작은 일부를 지불할 수 있다는 개념은 저에게 정말 경이롭습니다.

그다음 저는 사람들이 의료 관련 작업에 계속해서 추천하는 특정 모델들을 살펴보기 시작했습니다. 이틀 뒤면 모든 것을 잊어버릴 것 같아서 저만의 작은 요약표 (cheat sheet)를 만들었습니다:

모델 (Model)	입력 ($/M tokens)	출력 ($/M tokens)	컨텍스트 윈도우 (Context Window)
DeepSeek V4 Flash	0.27	1.10	128K
...

저 GPT-4o의 수치를 보세요. 출력 토큰 100만 개당 10.00달러입니다. 그다음 0.80달러에 자리 잡고 있는 GLM-4 Plus를 보세요. 이건 작은 차이가 아닙니다. 스타트업이 첫해를 살아남을지, 아니면 API 비용으로 시드 머니를 다 태워버릴지를 결정짓는 수준의 차이입니다.

의료 AI가 이렇게 접근하기 쉬운 것인지 전혀 몰랐습니다. 정말로 몰랐습니다.

내가 정말로 이것을 할 수 있다는 것을 깨달은 순간

부트캠프가 가르쳐주는 것 중 하나는 패닉에 빠지기 전에 문서를 읽으라는 것입니다. 그래서 저는 문서를 읽었습니다. 그리고 약 20분 만에 Global API의 통합 엔드포인트(unified endpoint)를 통해 실행되는 언어 모델(language model)로 첫 번째 작동하는 호출을 성공했습니다. 실제로 필요한 것은 다음과 같았습니다:

import openai
import os

...

그게 전부입니다. 통합 과정의 전부죠. 저는 몇 주간의 설정 과정을 예상했습니다. SDK 다운로드, 이상한 인증 흐름(auth flows), 지역 설정(regional config) 같은 번거로운 일들 말이죠. 아니었습니다. OpenAI Python 클라이언트는 그냥... 작동합니다. https://global-apis.com/v1을 가리키기만 하면 갑자기 하나의 일관된 인터페이스를 통해 184개의 모든 모델에 접근할 수 있게 됩니다.

약 1.2초 만에 완벽하게 구조화된 후속 질문 리스트(산소 포화도, 최근의 활동량, 방사통, 약물 복용 준수 여부, 가족 심장 질환 병력)와 함께 응답이 돌아왔을 때, 저는 그냥 의자에 깊숙이 몸을 기댔습니다. 바로 그 순간이었습니다. "나 정말로 이걸 만들 수 있겠구나"라고 느낀 순간 말이죠.

왜 계속해서 DeepSeek V4 Flash로 돌아오게 되었는가

약 50개의 서로 다른 테스트 프롬프트(test prompts)를 실행한 후, 저는 계속해서 DeepSeek V4 Flash에 끌렸습니다. 그것이 가장 화려해서가 아니라(그렇지도 않지만), 시작할 때는 존재조차 몰랐던 최적의 지점(sweet spot)을 정확히 짚어냈기 때문입니다.

비용이 정말 합리적입니다. 입력 토큰 100만 개당 0.27달러, 출력 토큰 100만 개당 1.10달러의 가격에 128K 컨텍스트 윈도우 (context window)를 제공하여, 토큰 비용이 폭증할 걱정 없이 더 긴 환자 이력 데이터 (patient history dumps)를 보낼 수 있는 여유를 주었습니다. 임상 의사 결정 지원 (clinical decision support)을 수행하는 작은 스타트업에게 이것은 전부와 같습니다. 누군가 더 긴 차트 기록 (chart note)을 붙여넣을 때마다 청구 금액이 세 배로 뛸 수는 없으니까요.

처리량 (throughput)은 어떨까요? 초당 약 320개의 토큰이 반환되고 있습니다. 이는 응답이 지연되는 느낌 없이 대화하는 것처럼 느껴질 만큼 충분히 빠릅니다. 임상의가 클릭 사이의 대기 시간을 가질 수 있는 의료 환경에서는 이러한 체감 속도가 정말 중요합니다.

테스트 중인 모델들의 벤치마크 점수 (benchmark scores)를 확인했을 때, 평균은 84.6% 근처를 맴돌았습니다. 현재 대부분의 모델이 이 범위에 머물러 있는데, 이는 솔직히 말해 차별화 요소가 원시적인 품질 (raw quality)이 아니라 비용과 컨텍스트 (context)라는 것을 의미합니다. 그리고 이것이야말로 부트캠프에서 전혀 준비시켜 주지 않았던 종류의 통찰입니다.

첫날 누군가 나에게 말해줬으면 좋았을 것들

제가 시작할 때 이 내용이 있었으면 좋았을 부분입니다. 이것들은 제가 무언가를 망가뜨리며 배운 것들입니다:

예산이 거기에 달려있다고 생각하고 캐싱 (Cache) 하세요 (실제로 그러니까요). 저는 테스트하는 동안 똑같은 프롬프트 호출 (prompt calls)을 계속해서 반복하고 있었습니다. 40%의 히트율 (hit rate)을 가진 간단한 캐싱 레이어 (caching layer)를 추가한 후, 월간 예상 비용이 눈에 띄게 줄어들었습니다. 모델은 정확히 같은 질문에 대해 정확히 같은 답변을 반환하는데, 왜 다시 계산하는 비용을 지불해야 할까요? 저의 순진한 머리는 처음 이틀 동안 이 점을 생각하지 못했습니다. 저처럼 되지 마세요.

응답을 스트리밍 (Stream) 하세요. 전체 완료 (completion) 결과가 돌아올 때까지 기다리는 대신, API 호출 시 stream=True를 사용하기 시작했습니다. 사용자는 단어들이 실시간으로 나타나는 것을 보게 됩니다. 체감 지연 시간 (perceived latency)이 줄어들 뿐만 아니라, 게다가 제 코드는 섹션이 도착하는 대로 포맷팅을 시작할 수 있습니다. 이것은 비용이 들지 않는 UX (사용자 경험) 측면의 승리였습니다.

적절한 작업에 적합한 모델을 선택하세요. Global API에는 더 간단한 쿼리에 대해 비용을 약 50% 절감해 주는 GA-Economy라는 티어(tier)가 있습니다. 저는 "이 노트를 요약해 줘" 또는 "약물 목록을 추출해 줘"와 같은 작업에 이를 사용합니다. 실제 추론 집약적인 감별 진단 (differential diagnosis) 작업에는 Flash 또는 Pro 티어를 고수합니다. 이처럼 티어를 혼합하여 사용하는 것은 숙련된 엔지니어들이 자동으로 하는 방식이며, 저는 이를 의도적으로 배워야 했습니다.

품질 수치를 모니터링하세요. 저는 임상의(검토에 동의해 준 제 친구)가 해당 응답을 유용하다고 표시했는지에 따라 각 응답을 1~5점 척도로 평가하는 기본적인 추적 스프레드시트를 만들었습니다. 패턴이 얼마나 빨리 나타나는지 보면 놀라실 겁니다. 어떤 모델은 구조화된 출력 (structured outputs)에는 뛰어나지만 뉘앙스를 놓칩니다. 다른 모델은 뉘앙스는 풍부하지만 장황합니다. 추적은 중요합니다.

대체 수단 (fallback)을 마련하세요. 속도 제한 (rate limit)이 걸리거나 API에 문제가 생기면 어떻게 될까요? 저는 지수 백오프 (exponential backoff)를 사용하여 재시도하고, 기본 모델을 사용할 수 없는 경우 다른 모델로 전환하는 작은 래퍼 (wrapper)를 작성했습니다. 이를 우아한 성능 저하 (graceful degradation)라고 부릅니다. 저는 이를 "새벽 2시에 당황하지 않는 법"이라고 부릅니다.

다른 부트캠프 졸업생들도 아마 이것을 원할 것이기에, 대체 수단이 포함된 스트리밍 (streaming) 설정을 보여주는 약간 더 고급 스니펫 (snippet)을 소개합니다:

import openai
import os

...

이것은 제가 프로젝트 첫날에 간절히 원했을 법한 코드입니다. 스트리밍, 대체 수단이 모두 하나의 깔끔한 함수 안에 들어있으니까요.

최종 수치는 어떠했는가

이 프로젝트를 2주 동안 파고든 후, 제가 스타트업 창업자에게 전달한 내용은 다음과 같습니다:

Global API를 통한 특화된 AI 의료 진단 모델 (specialized AI medical diagnosis models)을 사용하는 것이 범용 솔루션 (generic solution)을 사용하는 것보다 비용을 40-65% 절감해 주었습니다. 품질은 동일하거나 때로는 더 나았습니다.
주요 쿼리 (queries)의 평균 지연 시간 (latency)은 약 1.2초입니다. 아무도 불평하지 않을 만큼 충분히 빠릅니다.
처리량 (throughput)은 초당 약 320 토큰 (tokens)으로, 사용자 경험 (UX)이 반응성 있게 느껴지도록 유지해 줍니다.
선택한 모델들의 벤치마크 (benchmark) 점수는 우리가 실행한 표준 임상 추론 (clinical reasoning) 테스트에서 평균 84.6%를 기록했습니다.
"이걸 한번 해보자"에서 "작동하는 프로토타입 (prototype)을 확보했다"까지의 설정 시간은 10분 미만이었습니다. 과장이 아닙니다. 통합 SDK (unified SDK)가 대부분의 힘든 작업을 대신 처리해 줍니다.

마지막 항목이 창업자를 가장 흥분하게 만든 부분이었습니다. 헬스케어 분야에서는 조달 주기 (procurement cycle)만으로도 몇 달이 걸릴 수 있습니다. 오후 한때에 프로토타입을 만들 수 있다는 것은 팀이 얼마나 빠르게 반복 (iterate)할 수 있는지에 대한 모든 것을 바꿔 놓습니다.

내가 계속해서 되새기는 것

저는 아직 부트캠프를 막 졸업한 상태입니다. 시니어 엔지니어 (senior engineer)가 아닙니다. 10년의 경력도 없습니다. 그런데도 저는 지금, 3년 전만 해도 이 정도 규모의 작은 팀으로는 불가능했을 임상 의사결정 지원 도구 (clinical decision-support tooling)를 구축하고 있습니다. 경제 구조가 바뀌었습니다. 도구들이 더 단순해졌습니다. 모델들이 구조화된 추론 (structured reasoning) 작업에 진정으로 능숙해졌습니다.

저렴하고, 빠르고, 똑똑하며, 통합하기 쉽다는 이 조합이 저를 놀라게 했습니다. 저는 AI 의료 진단이 빅테크 (Big Tech)와 학술 연구소들만을 위한 어떤 미래지향적인 문샷 (moonshot) 프로젝트라고 생각하며 이 일을 시작했습니다. 하지만 적절한 API 엔드포인트 (endpoint)와 문서를 읽으려는 의지만 있다면, 그것은 주말 프로젝트에 불과하다는 사실이 밝혀졌습니다.

만약 당신이 저와 같은 부트캠프 졸업생이거나, 혹은 현재 의료 AI (Healthcare AI) 분야에서 무엇이 가능한지 궁금해하는 사람이라면, 저는 진심으로 Global API를 직접 살펴보라고 권하고 싶습니다. 시작할 때 100개의 무료 크레딧을 제공하는데, 이는 수십 개의 테스트 쿼리 (test queries)를 실행하고 품질을 직접 확인하기에 충분하고도 남는 양입니다. 압박도 없고, 강요하는 판매 깔때기 (sales funnel)도 없습니다. 그저 학습을 위한 샌드박스 (sandbox)일 뿐입니다. 저는 "토큰 (token)이 대체 뭐야"라는 상태에서 2주 만에 "작동하는 트리아지 (triage) 프로토타입을 보유한 상태"가 되었습니다. 그리고 그 과정의 대부분은 제가 상황을 너무 과하게 생각했던 것뿐이었습니다.

도구는 이미 준비되어 있습니다. 가격 책정도 합리적입니다. 유일한 실제 장벽은 당신이 할 수 있다는 것을 믿는 것입니다. 저도 오랫동안 그것을 믿지 못했습니다. 하지만 지금 저는 언어 모델 (language model)이 임상 평가 (clinical assessment) 초안 작성을 돕는 것을 지켜보며 앉아 있고, 누군가에게 이 사실을 꼭 말해야겠다는 생각에 자정에도 이 글을 쓰고 있습니다.

이것이 이야기의 전부입니다. 가서 무언가를 만들어 보세요.