Voice AI를 위한 Zero-Shared-State 인증 미들웨어 및 실시간 Whisper STT 파이프라인 구축

요약

실시간 Voice AI 워크스페이스 구축을 위해 상태가 없는(stateless) 인증 미들웨어와 저지연 Whisper STT 파이프라인을 설계한 엔지니어링 사례입니다. 동적 시간 잠금 API 키와 WebRTC 기반의 오디오 처리 흐름을 통해 보안과 성능을 동시에 확보했습니다.

핵심 포인트

동적 시간 잠금 방식을 통한 공유 상태 없는 인증 구현
5초 단위 자동 키 로테이션으로 보안성 강화
WebRTC와 Whisper를 활용한 1초 미만의 저지연 STT 파이프라인
VAD 및 다운샘플링을 통한 효율적인 오디오 세그먼트 처리

최근 저는 프로덕션급 실시간 Voice AI 워크스페이스를 처음부터 직접 구축했습니다. 전체 시스템에는 많은 구성 요소가 움직이고 있지만, 그중 두 가지 컴포넌트가 가장 세심한 엔지니어링을 필요로 했습니다. 바로 서비스 간의 **인증 미들웨어 (authentication middleware)**와 음성-텍스트 변환 (Speech-to-Text, STT) 파이프라인입니다.

제가 이 두 가지를 어떻게 접근하고 해결했는지 정확히 설명해 드리겠습니다.

미들웨어 문제 (The Middleware Problem)

저는 두 개의 로컬 마이크로서비스인 WebRTC 오디오 서버와 FastMCP 서버가 보안을 유지하며 통신하기를 원했습니다.

데이터베이스, Redis, 또는 하드코딩된 비밀 키(secrets)를 도입하고 싶지 않았습니다. 해결책은 가볍고(lightweight), 상태가 없어야(stateless) 하며, 내부 통신을 위해 합리적인 수준의 보안을 유지해야 했습니다.

그래서 저는 동적 시간 잠금 API 키 생성기 (dynamic time-locked API key generator)를 구축했습니다.

작동 방식:

두 서비스 모두 현재 UTC 타임스탬프를 사용하여 독립적으로 동일한 암호화 키를 계산합니다.

현재 타임스탬프를 가져옵니다.
이를 5초 단위의 에포크 윈도우 (epoch window)로 나눕니다.
해당 값으로부터 결정론적 키 (deterministic key)를 생성합니다.

만약 유효한 5초 윈도우 범위를 벗어난 요청이 도착하면, 즉시 거부됩니다.

이 접근 방식은 다음과 같은 이점을 제공합니다:

공유 상태 없음 (No shared state)
지속적 저장소 불필요 (No persistent storage)
단일 장애점 없음 (No single point of failure)
5초마다 자동 키 로테이션 (Automatic key rotation)

실시간 STT 파이프라인 (The Real-Time STT Pipeline)

저는 콜드 스타트(cold starts)가 없고 HTTP 폴링(polling)이 없는 **저지연 전사 (low-latency transcription)**를 원했습니다.

제가 구축한 정확한 흐름은 다음과 같습니다:

브라우저가 WebRTC를 통해 48kHz로 오디오를 캡처합니다.
오디오를 16kHz로 다운샘플링(downsampled)합니다.
음성 활동 감지 (Voice Activity Detection, VAD)가 30ms 락스텝(lockstep)으로 실행됩니다.
2.0초의 연속된 침묵 = 발화 경계 (speech boundary)
오디오 세그먼트가 FastMCP 서버로 전송됩니다.
Whisper "small" 모델이 부팅 시 미리 로드됩니다 (콜드 스타트 제로).
전사 결과가 WebRTC DataChannel을 통해 React 프론트엔드로 다시 푸시됩니다.

이를 통해 대부분의 경우 1초 미만의 엔드 투 엔드 지연 시간(end-to-end latency)을 가진 진정한 실시간 느낌을 구현할 수 있습니다.

아키텍처 흐름 (Architecture Flow)

이 설계가 효과적인 이유 (Why This Design Works Well)

완전히 상태가 없는 (Stateless) 미들웨어는 인프라 복잡성을 제거합니다.
Whisper를 미리 로드 (Preloading) 하여 콜드 스타트 (Cold start) 지연을 제거합니다.
전사 (Transcription) 전달을 위해 WebRTC DataChannel을 사용하여 폴링 (Polling) 오버헤드를 제거합니다.
VAD 세그멘테이션 (Segmentation) 및 MCP 툴링 (Tooling)을 통해 관심사의 명확한 분리 (Separation of concerns)를 구현합니다.

전체 프로젝트는 오픈 소스이며, WebRTC, MCP, 그리고 실시간 AI를 다루는 개발자들을 위한 교육적 청사진 (Blueprint) 역할을 하도록 제작되었습니다.

Repository: https://lnkd.in/dFbE44e3

기여 (Contributions)는 언제나 환영합니다 — 특히 현재 진행 중인 에이전트 라우팅 (Agent routing) 및 LLM 오케스트레이션 (Orchestration) 레이어에 대한 기여를 기다립니다.

특정 부분(VAD 튜닝, Whisper 후처리, 속도 제한 (Rate limiting) 등)에 대해 더 자세히 다루기를 원하신다면 댓글로 알려주세요.

AI 자동 생성 콘텐츠

원문 바로가기