AI 사이버 보안을 더 빨리 알았더라면 — 상세 분석

지난해 저는 보안 모니터링 파이프라인을 위해 폐쇄형 소스 (closed-source) AI 제공업체에 터무니없이 많은 돈을 쏟아부었습니다. 대시보드는 예뻤고, 브랜딩도 완벽했습니다. 하지만 제가 무엇인가를 셀프 호스팅 (self-host)하려고 시도하는 순간, "이 기능은 귀하의 티어 (tier)에서 사용할 수 없습니다"라는 벽에 부딪혔습니다. 그날이 바로 제가 오픈 웨이트 (open weights), 허용적인 라이선스 (permissive licenses), 그리고 통합 라우팅 레이어 (unified routing layers)를 파헤치기 시작한 날이었습니다. 제가 발견한 것들은 보안 운영 (security operations)에서 AI를 바라보는 저의 관점을 영원히 바꾸어 놓았습니다.

이 글을 읽고 계신다면, 여러분도 아마 폐쇄된 정원 (walled garden) 방식이 팀의 유연성을 해치고 있다고 이미 의심하고 계실 것입니다. 제가 AI 사이버 보안에 대해 배운 것, 2026년의 실제 가격표가 어떤 모습인지, 그리고 왜 제가 이제 거의 모든 것을 오픈 디자인 (open-by-design) 게이트웨이를 통해 라우팅하고 있는지 설명해 드리겠습니다.

제가 독점 스택 (Proprietary Stacks)을 신뢰하지 않게 된 이유

폐쇄형 AI 플랫폼에 관한 사실은 이렇습니다. 락인 (lock-in)은 우연이 아닙니다. 그것은 비즈니스 모델 그 자체입니다. 여러분은 매끄러운 SDK, 호스팅된 플레이그라운드 (playground), 어쩌면 파인튜닝 (fine-tuning) API를 얻는 대신, 추론 경로 (inference path), 프롬프트 로그 (prompt logs), 비용 구조, 그리고 업그레이드 시기에 대한 통제권을 포기하게 됩니다. 모든 로드맵 결정은 여러분이 절대 들어갈 수 없는 회의실에서 이루어집니다.

사이버 보안 워크로드 (cybersecurity workloads)의 경우, 이는 여러분을 공포에 떨게 해야 합니다. 여러분은 이러한 시스템에 민감한 지표 (indicators), 데이터 유출 경로 (exfiltration paths), 내부 호스트 이름, 그리고 때로는 실제 개인정보 (PII)가 포함될 수 있는 로그를 제공하고 있습니다. 모델 웨이트 (model weights)를 검사할 수 없고, 학습 데이터 (training data)를 감사 (audit)할 수 없으며, 데이터 보유 정책 (data retention policy)을 확인할 수 없는 벤더에게 이를 넘기는 것은, 신원 조회를 할 수 없는 보안 요원을 고용하는 것과 같습니다.

오픈 소스 모델 (Open source models)은 그 반대입니다. 모델이 Apache 2.0 또는 MIT 라이선스로 출시되면, 가중치 (weights)를 가져와 자신의 하드웨어 (iron)에서 실행하고, 아키텍처 (architecture)를 조사하며, 레시피가 공개된 경우 훈련 파이프라인 (training pipeline)을 감사 (audit)할 수 있고, 동작을 패치 (patch)해야 할 경우 해당 프로젝트를 포크 (fork)할 수 있습니다. 이것은 이데올로기가 아니라, 그저 훌륭한 엔지니어링 위생 (engineering hygiene)입니다. 읽고, 수정하고, 재배포할 수 있는 자유는 소프트웨어 산업의 나머지 분야가 허용적 라이선스 (permissive licenses)를 기반으로 운영되는 이유이며, AI라고 해서 달라야 할 타당한 이유는 없습니다.

내 스프레드시트에서 추출한 실제 수치들

나는 Global API를 통해 라우팅되는 184개의 모델을 추적하는 비교 시트를 만들었는데, 가격 차이가 엄청납니다. 입력 비용 (Input costs)은 저가형의 경우 100만 토큰당 $0.01부터 프리미엄급의 $3.50까지 분포합니다. 출력 비용 (Output costs)도 유사한 곡선을 따릅니다. 내가 대화해 본 대부분의 팀은 단순히 유명 브랜드의 엔드포인트 (endpoint)를 기본값으로 설정했다는 이유만으로 터무니없이 많은 비용을 지불하고 있습니다.

다음은 보안 중심 워크로드 (security-oriented workloads)를 위해 내가 계속해서 다시 찾게 되는 5가지 모델이며, 내 추적 데이터에 기반한 정확한 수치입니다:

DeepSeek V4 Flash: 100만 토큰당 입력 $0.27 / 출력 $1.10, 128K 컨텍스트 윈도우 (context window). 이는 대량의 로그 분류 (log triage)를 위한 나의 기본 모델입니다. 수백만 개의 이벤트를 주저 없이 처리할 수 있을 만큼 저렴하며, 컨텍스트 윈도우가 전체 세션 덤프 (session dumps)를 편안하게 처리합니다.

DeepSeek V4 Pro: 100만 토큰당 입력 $0.55 / 출력 $2.20, 200K 컨텍스트 윈도우. 분석이 까다로워져서 긴 위협 보고서 (threat report)와 전체 대화 기록, 그리고 보조적인 IOC (Indicators of Compromise)를 모두 입력해야 할 때 내가 찾는 모델입니다. 200K 컨텍스트는 긴 포렌식 타임라인 (forensic timelines)을 하나로 엮는 데 진정으로 유용합니다.

Qwen3-32B: 100만 토큰당 입력 $0.30 / 출력 $1.20, 32K 컨텍스트 윈도우. 정적 분석 요약 (static analysis summaries) 및 YAML 검토와 같은 코드 인지 보안 작업 (code-aware security tasks)에 견고합니다. 32K라는 한계 때문에 청킹 (chunking)을 더 공격적으로 해야 하지만, 달러당 품질 비율 (quality-per-dollar ratio)은 탁월합니다.

GLM-4 Plus: 100만 토큰당 입력 $0.20 / 출력 $0.80, 128K 컨텍스트 윈도우 (context window). 아마 이 목록에서 가장 과소평가된 옵션일 것입니다. 대량의 경보 (alerts)에 대해 분류 (classification) 작업을 수행해야 하고 정교한 추론 (reasoning)이 필요하지 않을 때, 이 모델은 대기열을 그냥 씹어 삼키듯 처리해 버립니다.

GPT-4o: 100만 토큰당 입력 $2.50 / 출력 $10.00, 128K 컨텍스트 윈도우 (context window). 가끔 발생하는 어려운 문제들을 위해 여전히 사용 목록에 넣어두고 있지만, 비용 차이가 엄청납니다. 출력 토큰 (output tokens)에 대해 DeepSeek V4 Flash보다 거의 10배 더 많은 비용을 지불하게 되는데, 대부분의 보안 유스케이스 (use cases)에서 품질 향상이 10배에 달하지는 않습니다.

결론은 명확합니다. 통합 API를 통해 오픈 웨이트 (open-weights) 모델들을 사려 깊게 혼합하여 사용하면, 독점적 엔드포인트 (proprietary endpoints)를 기본값으로 사용하는 것보다 40-65%의 비용 절감을 달성할 수 있습니다. 또한 제가 측정한 벤치마크 수치들은 제가 중요하게 생각하는 보안 특화 작업에서 대등하거나 더 나은 품질을 보여줍니다.

제가 실제로 프로덕션에서 실행하는 코드

제 통합 방식이 어떻게 구성되어 있는지 보여드리겠습니다. 가장 먼저 눈에 띄는 점은 베이스 URL (base URL)이 일반적인 대상들이 아닌 global-apis.com/v1을 가리키고 있다는 것입니다. 이 단 한 번의 변경만으로 비즈니스 로직을 단 한 줄도 다시 작성하지 않고 사용 가능한 184개의 모델 사이를 자유롭게 전환할 수 있습니다. OpenAI 호환 인터페이스 (OpenAI-compatible interface) 덕분에 기존의 클라이언트 라이브러리 (client library)를 그대로 사용할 수 있습니다.

로그 분류 (log classification)를 위해 사용하는 기본적인 채팅 완성 (chat completion) 패턴은 다음과 같습니다:

import openai
import os

...

이 작은 코드 조각이 현재 제 SOC에서 실제로 작업을 수행하고 있습니다. 시간당 수백 번 실행되며, DeepSeek V4 Flash 가격을 적용하면 월간 청구 금액은 이전에 지불하던 금액에 비해 웃음이 나올 정도로 적습니다.

더 무거운 분석 경로를 위해서는 긴 포렌식 보고서 (forensic writeups)를 처리하는 스트리밍 (streaming) 변형 버전을 사용합니다:

import openai
import os

...

DeepSeek V4 Pro의 200K 컨텍스트 (context) 덕분에 사건 파일 전체를 한 번에 전달할 수 있습니다. 스트리밍 (streaming)을 사용하면 모델이 4,000개의 분석 토큰 (tokens)을 처리하는 중에도 UI가 반응형 상태를 유지합니다. 사용자 관점에서는 어시스턴트가 실시간으로 타이핑하는 것처럼 보여, 1.2초 동안 로딩 스피너 (spinner)만 바라보는 것보다 훨씬 나은 경험을 제공합니다.

내 파이프라인 (pipeline)에서 실제로 성과를 낸 것들

이 시스템을 몇 달간 본격적으로 운영해 본 결과, 비용과 품질 측면에서 실제로 유의미한 변화를 만들어낸 관행들은 다음과 같습니다. 이 중 어느 것도 엄청나게 어려운 기술은 아니지만, 이들이 결합되면 실질적인 차이를 만들어냅니다.

첫째, 공격적으로 캐싱 (cache)하세요. 제 트래픽 중 얼마나 많은 부분이 중복되는지 보고 깜짝 놀랐습니다. 프롬프트 (prompt)를 해싱 (hashing)하고 적절한 TTL (Time To Live)과 함께 Redis에 결과를 저장하기 시작하자, 40%의 캐시 히트율 (cache hit rate)을 달성했습니다. 오타가 아닙니다. 제 서비스로 들어오는 요청의 40%가 본질적으로 최근 요청의 중복이었으며, 이를 캐시에서 제공하는 것은 비용이 들지 않았습니다. 만약 이 작업을 하지 않고 있다면, 돈을 길바닥에 버리고 있는 것과 같습니다.

둘째, 가능한 모든 곳에서 응답을 스트리밍 (stream)하세요. 사용자 경험이 개선되고, 체감 지연 시간 (perceived latency)이 낮아지며, 모델이 생성을 완료하기 전에 부분적인 결과를 먼저 반환할 수 있습니다. 제 평균 지연 시간은 첫 번째 토큰 (first-token) 전달까지 약 1.2초이며, 처리량 (throughput)은 초당 평균 320 토큰 (tokens)입니다. 사용자는 거의 즉시 무언가 일어나고 있음을 보게 됩니다.

셋째, 단순한 쿼리 (query)는 더 저렴한 모델로 라우팅 (route)하세요. 메인 모델 앞에 요청이 "단순"한지 "복잡"한지를 결정하는 가벼운 분류기 (classifier)를 추가했습니다. 단순한 요청은 GA-Economy로 보내는데, 이를 통해 해당 트래픽의 비용을 약 50% 절감했습니다. 복잡한 요청은 더 무거운 모델로 보냅니다. 트래픽의 상당 부분이 단순한 분류 작업일 경우, 이러한 절감액은 빠르게 쌓입니다.

넷째, 품질을 모니터링하십시오. 품질 모니터링 없는 비용 최적화는 단순히 추가적인 단계가 포함된 성능 저하일 뿐입니다. 저는 사용자 만족도 점수, '좋아요(thumbs-up)' 비율, 그리고 매일 파이프라인을 통해 실행하는 소수의 골든 세트(golden-set) 프롬프트를 추적합니다. 품질이 떨어지면 사용자가 불평하기 전에 제가 먼저 알 수 있습니다.

다섯째, 폴백(fallback)을 구현하십시오. 속도 제한(Rate limits)은 발생하기 마련입니다. 제공업체의 서비스 중단도 발생합니다. 보조 모델로 라우팅하거나 구조화된 "모르겠습니다" 응답을 반환하는 우아한 성능 저하(graceful degradation) 경로를 갖추고 있으면, 상황이 잘못되어도 시스템의 유용성을 유지할 수 있습니다. 저는 새벽 3시에 발생한 사고를 통해 이 교훈을 뼈아프게 배웠습니다.

모델 자체에 대한 참고 사항

오픈 소스(open source)에 관한 점으로 다시 돌아가고 싶은데, 이는 매우 중요하기 때문입니다. 제가 보안 작업에서 가장 많이 의존하는 모델들은 Apache 2.0 또는 MIT 라이선스로 배포됩니다. 이는 만약 내일 Global API가 사라지더라도, Hugging Face에서 가중치(weights)를 가져와 제 랙에 있는 GPU 박스에서 실행하며 계속 작업을 이어갈 수 있음을 의미합니다. 통합 API를 대상으로 작성한 코드는 약간의 조정이 필요하겠지만, 프롬프트, 평가 하네스(evaluation harness), 프롬프트 템플릿 등은 모두 그대로 가져올 수 있습니다. 그러한 이식성(portability)이 바로 허용적 라이선스(permissive licensing)의 핵심입니다.

프롬프트가 특정 폐쇄형 모델(closed model)의 특성에 맞춰 튜닝되어 있고, SDK가 독점적이며, 마이그레이션할 수 있는 유일한 방법이 모든 것을 처음부터 다시 구축하는 것이었던 이전 설정과 비교해 보십시오. 그것은 파트너십이 아니라 인질 상황입니다.

Global API를 통해 사용할 수 있는 184개의 모델은 저에게 선택권을 줍니다. 어떤 날은 정적 분석(static analysis)을 위해 코드에 집중된 모델을 원할 수도 있습니다. 어떤 날은 포렌식 타임라인을 위해 긴 컨텍스트(long-context) 모델을 원할 수도 있습니다. 어떤 날은 분류(classification)를 위해 작고 저렴한 모델을 원할 수도 있습니다. 저는 특정 벤더의 로드맵에 얽매이거나 그들이 기능을 출시하기를 기다릴 필요가 없습니다. 그저 다른 모델 이름을 지정하고 계속 나아가면 됩니다.

상사를 설득한 수치들

내부적으로 마이그레이션을 제안했을 때, 저는 발표 자료(deck)를 준비해야 했습니다. 실제로 효과가 있었던 핵심 사항들은 다음과 같습니다:

비용 (Cost): 우리가 사용하던 독점적 (proprietary) 대안보다 40-65% 더 저렴했습니다. 그 사실 하나만으로도 첫 달 이내에 투입된 엔지니어링 시간을 모두 회수할 수 있었습니다.

속도 (Speed): 평균 지연 시간 (latency) 1.2초, 초당 처리량 (throughput) 320 토큰. 이 수치들은 단순한 마케팅 데모가 아니라 실제 운영 부하 (production load) 상황에서도 유지되었습니다.

품질 (Quality): 제가 구축한 보안 작업 스위트 (security task suite) 전반에 걸쳐 평균 84.6%의 벤치마크 점수를 기록했습니다. 폐쇄형 소스 (closed-source) 기존 업체는 82.1%였습니다. 우리는 실제로 더 나은 결과를 얻었습니다.

설정 (Setup): 아무것도 없는 상태에서 작동하는 통합 (integration)까지 10분 미만이 소요되었습니다. 통합 SDK (unified SDK)와 OpenAI 호환 인터페이스 (OpenAI-compatible interface) 덕분에 기존 클라이언트 코드를 거의 수정할 필요가 없었습니다. 대부분의 시간은 로직을 다시 쓰는 것이 아니라 환경 변수 (environment variables)를 업데이트하는 데 사용되었습니다.

비용 슬라이드는 회의실의 분위기를 결정지은 결정적인 항목이었습니다. 품질 향상이 동반된 상황에서 그 정도의 큰 수치에 반대할 사람은 아무도 없었습니다.

과거의 나에게 해주고 싶은 한 가지

만약 제가 2년 전으로 돌아가 과거의 저에게 단 한 가지 조언을 할 수 있다면, 그것은 이것입니다: AI 제공업체를 인프라 (infrastructure)처럼 취급하지 말고, 교체 가능한 구성 요소 (interchangeable components)처럼 취급하기 시작하십시오. 하단에 라우팅 계층 (routing layer)을 두고 OpenAI 호환 인터페이스를 표준화하는 순간, 전체 벤더 환경은 하나의 약속이 아닌 메뉴판처럼 변하게 됩니다.

제 파이프라인 (pipeline)에서 실제 작업을 수행하는 모델들이 Apache 2.0 라이선스로 배포된다는 사실은, 제가 단순히 한 벤더를 다른 벤더로 교체하는 것이 아님을 의미합니다. 저는 제가 실제로 제어할 수 있는 자산 위에 구축하고 있는 것입니다. 가중치 (weights)는 제가 사용할 수 있고, 라이선스 조건은 명확하며, 이 모델들을 둘러싼 커뮤니티는 매주 개선 사항을 만들어내고 있습니다. 이는 제가 이전 제공업체와 가졌던 관계와는 근본적으로 다른 관계입니다.

특히 보안 작업의 경우, 그 계산(calculus)은 더욱 명확합니다. 당신은 검사할 수 있는 모델, 감사(audit)할 수 있는 프롬프트, 그리고 가장 민감한 입력을 제3자에게 신뢰할 필요가 없는 배포 경로를 원합니다. 허용적인 라이선스(permissive licenses)를 가진 오픈 소스 (Open source) 모델들이 당신을 그곳으로 인도합니다. 통합 API 게이트웨이 (API gateway)는 종속성 (lock-in) 없이 호스팅된 제품의 인체공학적 편의성 (ergonomics)을 제공합니다. 이 조합은 타의 추종을 불허합니다.

마무리하며

2026년의 AI 사이버 보안 (AI cybersecurity)은 2년 전의 모습과는 전혀 다릅니다. 오픈 웨이트 (open weights) 운동은 실제 워크로드 (workloads)에서 독점적인 대안들과 대등하거나 이를 능가하는 모델들을 만들어냈고, 라이선싱은 실제 비즈니스를 구축할 수 있을 만큼 충분히 허용적이며, 라우팅 레이어 (routing layer) 문제는 Global API와 같은 게이트웨이들에 의해 깔끔하게 해결되었습니다. 단일 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 통해 184개의 모델로 시작할 수 있으며, 필요에 따라 모델을 전환하고, 100만 토큰당 1센트의 아주 작은 일부 수준에서 시작하는 가격을 지불할 수 있습니다.

만약 당신이 폐쇄형 플랫폼 (closed platform)에 갇혀 종속성 (lock-in)이 스며드는 것을 느끼고 있다면, 이것이 바로 실험을 시작하라는 신호입니다. 위에서 공유한 코드는 시작하는 데 진정으로 필요한 전부입니다. API 키를 넣고, 카탈로그에서 모델을 선택한 뒤, 트래픽을 보내기 시작하세요. 비용 대시보드 (cost dashboards)가 얼마나 빠르게 다른 이야기를 들려주는지 보고 놀라게 될 것입니다.

제가 계속해서 Global API로 돌아오는 이유는 그것이 유일한 옵션이기 때문이 아니라, 제가 중요하게 생각하는 오픈 소스 정신 (open source ethos)을 존중하기 때문입니다. 그 기반이 되는 모델들은 Apache 및 MIT 라이선스를 따르고, 인터페이스는 표준화되어 있으며, 가격은 투명합니다. 그것이 바로 제가 구축하고 싶은 종류의 인프라입니다. 폐쇄된 정원 (walled garden)에서 빌려 쓰는 것을 멈추고 개방적인 무언가를 통해 라우팅하기 시작할 때 AI 보안 작업이 어떤 모습인지 보고 싶다면 확인해 보시기 바랍니다.