기밀 코드를 받아쓰기할 때: 클라우드에 목소리를 보내는 것을 중단한 이유

저는 AI 컨설턴트입니다. 하루의 절반은 고객을 위해 언어 모델(LLM)을 구동하는 데 시간을 보냅니다. 저는 많은 내용을 받아쓰기합니다. Claude Code에 프롬프트를 입력하거나, 설계 메모를 작성하고, 변수 이름을 지정하며, 아직 외부에 공개되지 않은 비즈니스 로직의 일부도 말합니다.

한동안 저는 클라우드 받아쓰기 솔루션을 사용했습니다. 편리했고 잘 작동했습니다. 그러다 어느 날 제가 녹음 버튼을 누를 때 실제로 그들의 서버로 무엇이 전송되는지 깨달았습니다.

당신의 목소리가 실제로 담고 있는 것들

코드 도구나 AI 에이전트에게 프롬프트를 받아쓰기할 때는 민감한 것을 전달하고 있다는 느낌을 받지 못합니다. 자신만의 공간에 있고, 집에서, 그저 마이크에 말하는 것뿐이라고 생각하죠.

하지만 이 오디오 스트림에는 아직 발표되지 않은 고객 제품 이름이 담겨 있습니다. 독점 데이터 흐름의 로직이 들어있습니다. 테이블 이름, 엔드포인트, 비즈니스 규칙 등이 포함되어 있습니다. 또한 누구나 구글에서 검색하여 당신이 어떤 산업에 종사하는지 이해할 수 있게 하는 내부 약어들도 있습니다.

Wispr Flow, Otter와 같은 클라우드 받아쓰기 도구 또는 다양한 서비스에 통합된 음성 기능의 경우, 이 오디오는 원격 서버를 거치게 됩니다. 그 이후 일어나는 일은 그들의 문제입니다: 모델 개선을 위한 콘텐츠 보존, 잠재적인 내부 접근, 이용 약관(CGU) 업데이트마다 조용히 바뀌는 정책들.

NDA 하에서는 당신이 책임져야 합니다. 그들이 아닙니다.

'100% 로컬'이 실제로 의미하는 것

로컬 솔루션의 약속은 오디오가 절대 사용자의 장치를 벗어나지 않는다는 것입니다. 끝입니다. 네트워크 요청도, 어딘가로 전송되는 토큰도, 메타데이터도 없습니다. Whisper 모델이 직접 당신의 기기에서 실행됩니다.

확인할 수 있는 간단한 테스트가 있습니다: 와이파이 연결을 끊고 받아쓰기를 한 후 버튼을 놓아보세요. 만약 전사(transcription) 결과가 도착한다면, 그것은 100% 로컬입니다. 그렇지 않다면, 무언가가 어딘가로 전송되고 있다는 뜻입니다.

Dictation(받아쓰기) 세션 동안 네트워크 모니터(Little Snitch, Glasswire, 또는 약간의 고통을 감수할 의향이 있다면 단순히 Wireshark)를 열어 아웃바운드(outbound) 연결이 생성되는지 확인할 수도 있습니다. 진정으로 로컬(local)인 솔루션이라면 아무것도 나타나지 않을 것입니다. 프라이버시(privacy)를 증명하는 것은 벤더(vendor)의 개인정보 보호 정책이 아니라, 네트워크의 정적입니다.

복잡한 척하지 않는 기술적 방법

내부 엔진은 Systran에서 만든 Whisper의 최적화된 구현체인 faster-whisper입니다. CPU에서 OpenAI의 원본보다 더 빠르며, 난해한 설정 없이 Windows에서 깔끔하게 작동합니다.

처음 활성화할 때, 모델(선택한 크기에 따라 수백 메가바이트)이 한 번 다운로드됩니다. 그 이후에는 더 이상 연결이 필요하지 않습니다. 기본적인 호출이 어떻게 생겼는지 보고 싶다면 다음과 같습니다:

from faster-whisper import WhisperModel

modele = WhisperModel("small", device="cpu", compute_type="int8")
...

initial_prompt 파라미터는 자주 잊히는 부분입니다. 이는 모델이 특정 단어들을 예상하도록 강제하여, 기술 용어와 퀘벡(Québécois) 표현의 전사(transcription) 품질을 향상시킵니다. 여기에 변수 이름, 도메인 용어, 프로젝트의 전형적인 표현들을 넣을 수 있습니다. 제한은 약 224 토큰(tokens)이며 금방 채워지므로, 선택적으로 사용해야 합니다.

솔직한 절충안

이것을 완벽한 솔루션이라고 팔아넘기지는 않겠습니다. 왜냐하면 그렇지 않기 때문입니다.

Whisper에게는 표준 프랑스어보다 퀘벡 억양이 여전히 더 어렵습니다. 정확한 어휘가 포함된 기술 텍스트의 경우 initial_prompt에 넣은 용어집(glossary)이 정말 큰 도움이 됩니다. 하지만 지역적 표현이 밀집된 순수 대화형 문장의 경우, 표준 프랑스어보다 더 많은 수동 수정이 필요할 것을 예상해야 합니다. 이것이 현실입니다. 저는 아직 공식적인 벤치마크(benchmark)를 수행하지 않았으므로 오류율 수치를 게시하지 않으며, 숫자를 지어내지도 않을 것입니다.

또한 현재는 Windows에서만 작동합니다. Mac과 Linux는 지원되지 않습니다. 그리고 인터페이스는 알파(alpha) 단계에 머물러 있습니다. 기능은 작동하지만, 성숙한 제품과 같은 세련미(polish)는 아직 갖추지 못했습니다.

처음부터 시작한다면 기본 설정(setup)에 몇 가지 기술적인 단계가 필요합니다. 바로 그 이유 때문에 저는 이 모든 것을 패키징(packaged)하게 되었습니다.

제가 이것을 패키징한 이유

저는 이미 저 자신을 위해 이 파이프라인(pipeline)을 구축해 두었습니다. Faster-whisper 설치, 간단한 Python 스크립트, F6 키를 이용한 푸시 투 토크(push-to-talk, 누르고 있으면 말하기, 떼면 전사), 그리고 어떤 앱에도 붙여넣을 수 있도록 클립보드(clipboard)와 통합하는 기능까지 갖추었습니다. 잘 작동했습니다.

이것을 몇몇 사람들에게 보여주었습니다. 평소와 다름없는 반응이 돌아왔습니다: "멋지긴 한데, 이걸 설치하려고 앉아 있지는 않을 것 같아요."

그래서 설치 프로그램을 만들었습니다. 용량은 63MB입니다. 실행하고, 설치하고, F6를 누르면 됩니다. 만약 당신의 기기에서 정확히 무엇이 돌아가고 있는지 확인하고 싶다면, 코드는 github.com/elboKazQC/tania-dictee에서 MIT 라이선스로 공개되어 있습니다 (그리고 여기서 진정한 투명성(transparency)과 개인정보 보호(privacy)가 시작됩니다. 단순히 FAQ에 적힌 약속이 아닌 오픈 소스(open source)니까요).

패키지 버전은 Gumroad에서 9달러(CAD)에 일회성 구매로 이용할 수 있습니다. 구독(subscription)은 없습니다.

현재까지 외부 사용자는 0명입니다. 저는 빌드 인 퍼블릭(build-in-public) 모드로 작업 중이며, 터널의 끝이 아니라 터널의 시작점부터 여러분께 말씀드리고 있습니다.

이 주제에 관심이 있다면, 대기 명단(waitlist)은 여기 있습니다: elbokazqc.github.io/tania-dictee

Insights

기밀 코드를 받아쓰기할 때: 클라우드에 목소리를 보내는 것을 중단한 이유

요약

핵심 포인트