본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 21. 20:34

Claude Code 시대의 음성 입력 앱 4선|Mac 표준을 포기하고 Aqua Voice에 정착하기까지

요약

Claude Code와 같은 AI 도구 사용 시 프롬프트 입력의 번거로움을 해결하기 위한 음성 입력 앱 4종을 비교 분석합니다. Whisper 모델과 LLM을 결합한 새로운 Audio + LLM 구조가 음성 인식의 정확도와 정제 능력을 어떻게 혁신했는지 다룹니다.

핵심 포인트

  • Whisper 모델 공개로 개인 개발자도 고성능 STT 구축 가능
  • LLM을 활용해 구어체 필러를 제거하고 문장을 정형화하는 구조
  • Aqua Voice, Superwhisper 등 차세대 음성 입력 앱 비교
  • AirPods 사용 시 음성 인식 정확도가 극적으로 향상됨

Claude Code, ChatGPT, Cursor, NotebookLM. 매일 AI에게 무언가를 부탁할 때마다, 긴 프롬프트(Prompt)를 키보드로 타이핑하고 있다.

문득 깨달았다.

"프롬프트를 쓰는 거, 너무 귀찮지 않은가?"

코드를 쓰는 것도, 리서치도, 문서 작성도, 최근에는 대부분 AI에게 맡길 수 있다. 내가 하고 있는 일은 결국 AI에게 "이것을 이런 전제로 진행해줘"라고 설명하는 것뿐이다. 그런데도 그 지시를 매번 키보드로 타닥타닥 치고 있다. 생각하는 것을 그대로 말할 수 있다면, 몇 배는 더 빠를 것이다.

그렇게 생각하여 지난 몇 달간 4가지 음성 입력 앱을 시도했다. 결론부터 말하자면, 최종적으로 Aqua Voice에 정착했다.

이 기사에서는,

  • 4가지 앱을 실제로 사용하며 느낀 정확도·사용 편의성의 차이
  • 각각의 개발사·창업자·기술적 접근 방식 (단순한 리뷰가 되지 않기 위해)
  • AirPods를 사용하면 정확도가 극적으로 올라가는 이야기, 기밀 정보의 취급

을 정리한다. 예상 독자는 AI에게 매일 프롬프트를 던지는 모든 사람이다. Claude Code를 사용하는 개발자는 물론, ChatGPT로 리서치하는 PM·PdM, Claude로 기획서를 쓰는 플래너, 생성 AI로 소재를 만드는 디자이너, 업무에서 AI를 다용하고 있다면 누구든 대상이다. "프롬프트를 쓰는 게 귀찮다"라고 한 번이라도 생각해 본 적이 있다면, 음성 입력으로 전환하는 것만으로도 생활이 바뀔 것이다.

  • OS: macOS 15.x (Apple Silicon)
  • 주요 용도: Claude Code / Cursor / ChatGPT / Slack 입력
  • 입력 장치: MacBook 내장 마이크, AirPods Pro 2
  • 시도 기간: 2026년 초 ~ 5월
제목
1왜 "음성 입력"이 다시 뜨거운가
...음성 입력 자체는 새로운 기술이 아니다. macOS에도 Windows에도 표준 기능은 있다. Dragon NaturallySpeaking에 이르러서는 30년 이상의 역사를 가지고 있다.

그런데 왜 2024~2026년에 걸쳐 신흥 플레이어들이 속속 진입하고 있는가. 이유는 두 가지가 있다.

2022년 9월에 OpenAI가 발표한 Whisper는 68만 시간의 다국어 음성으로 학습된 음성 인식 모델이며, 이것이 오픈 소스로 공개되었다. 최신 large-v3는 100만 시간의 약라벨(Weakly-labeled) 음성 + 400만 시간의 의사라벨(Pseudo-labeled) 음성으로 학습되었다.

이로 인해 "개인 개발자라도 Apple이나 Google에 필적하는 정확도의 STT (Speech-to-Text)를 구축할 수 있게 된" 상태가 만들어졌다.

Whisper로 음성을 텍스트로 변환한 뒤, LLM으로 정형화한다. 이것이 차세대 앱의 기본 구조다.

기존의 음성 입력은 "음, 그러니까, 그게 말이지" 같은 부분까지 그대로 출력되었다. LLM이 개입함으로써 필러(Filler)를 제거하고, 구어를 문장으로 바꾸며, 코드 단편을 정형화하는 것까지 한 번에 해낼 수 있다.

Audio + LLM 구조가 지금 음성 입력 앱을 흥미롭게 만드는 본질이다. Aqua Voice, Superwhisper, VoiceOS는 모두 이 흐름을 타고 있다.

실제로 사용해 본 평가는 다음과 같다.

개발사처리 방식개인적인 정확도 평가월간 예상 비용
Mac 표준 음성 입력Apple로컬× 짧은 영어 단어(F5 → FG)조차 인식 못 함무료
SuperwhisperSuperUltra, Inc. (Toronto)로컬 (whisper.cpp / Parakeet)△ 기대만큼 정확도가 나오지 않음일시불 또는 구독
VoiceOSVoiceOS (YC X25)클라우드△ 미묘함구독
Aqua VoiceAqua Voice Inc. (SF, YC W24)클라우드 (Audio + LLM)◎ 확실히 다름구독

"개인적인 정확도 평가"는 어디까지나 자신의 용도(일본어와 영어가 섞인 개발 관련 발화)에서의 인상이다. 발화 스타일이나 언어에 따라 결과는 달라질 것이라 생각한다.

처음 시도한 것은 Mac 표준 음성 입력(fn 키를 두 번 눌러 실행하는 것)이다.

결론, 이것은 포기하는 편이 좋다.

구체적으로 어떤 일이 일어났냐면, "F5"라고 말하면 "FG"가 된다. 알파벳 단발음조차 제대로 잡지 못한다. 코드 관련 용어(function, useEffect 등)도...

등)에 이르러서는 매번 다른 무언가로 변해버린다.

아마 Mac 표준 기능은 「일본어 회화를 문장으로 만드는 것」에는 최적화되어 있겠지만, 개발자가 섞어서 말하는 영어 단어, 기호, 기술 용어에 대응하도록 만들어지지는 않았다.

「일단 OS 표준 기능으로도 되지 않을까?」라고 생각하며 시도해 보았지만, 5분 만에 포기했다.

개발사는 SuperUltra, Inc. (캐나다 토론토 기반). 창업자는 Neil Chudleigh로, 원래 PartnerStack의 공동 창업자였던 인물이다. 2023년 8월 Hacker News에서 출시된 이후, VC(Venture Capital)를 받지 않고 부트스트랩(Bootstrap) 방식으로 운영하고 있다.

기술적인 특징은 명확하며, **로컬 처리 (오프라인 동작)**에 집중하고 있다. OpenAI의 Whisper를 C++로 경량 구현한 whisper.cpp를 사용하며, 여기에 NVIDIA Parakeet를 기반으로 모든 음성 처리를 단말기 내에서 완결시킨다.

오프라인으로 동작한다 = 음성 데이터가 외부로 나가지 않는다, 라는 점이 Superwhisper의 가장 큰 세일즈 포인트(Sales Point)다. Meta, OpenAI, Coinbase, Dropbox 등 기밀성이 높은 기업의 직원들도 많이 사용하고 있다고 한다.

장점:

  • 프라이버시 관점에서 안심 (클라우드로 음성을 보내지 않음)
  • 인터넷 연결 불필요

아쉬운 점 (본인의 용도 기준):

  • 인식 정밀도가 뒤에서 설명할 Aqua Voice에 비해 부족했다
  • LLM(Large Language Model)을 통한 정리를 클라우드 API에 의존하는 설정도 있지만, 풀 로컬(Full Local)로 사용할 경우 정리가 다소 약하다

「업무상 음성 데이터를 외부로 내보낼 수 없는」 사람에게는 이것이 유일한 선택지라고 생각한다.

개발사는 VoiceOS로, Y Combinator의 Spring 2025 배치(X25)에서 막 나온 회사다. 창업자는 Jonah Daian (CEO, 지난 7년간 음성 AI 영역에서 컨슈머 대상부터 엔터프라이즈까지 개발), Kai Brokering (도쿄 출생, 15세에 미국으로 이주)을 포함한 4명이다.

VoiceOS가 다른 서비스와 다른 점은 단순한 「음성 → 텍스트」가 아니라, 음성으로 앱을 조작하는 것을 목표로 한다는 점이다.

Dictation Mode: 음성을 정리하여 텍스트 삽입 (일반적인 음성 입력) -
Agent Mode: Slack 전송, Gmail 작성, 캘린더 등록 등을 AI 에이전트(Agent)가 실행

비전은 매력적이다. 다만 내가 테스트했을 당시에는 Dictation Mode의 정밀도와 레이턴시(Latency) 모두 Aqua Voice에는 미치지 못했고, Agent Mode도 「직접 하는 게 더 빠르겠다」고 느껴지는 장면이 많았다.

신흥 프로덕트이므로, 반년 후에는 풍경이 바뀌어 있을지도 모른다.

최종적으로 정착한 것이 이것이다. 개발사는 Aqua Voice Inc. (샌프란시스코)이며, Y Combinator W24 배치 출신이다.

창업자의 이야기가 흥미롭다.

Finnian Brown (CEO, 하버드 졸업·철학 전공): 난독증(Dyslexia)이 있어 초등학교 6학년 때부터 음성 입력 소프트웨어인 Dragon을 사용해 왔다. 「음성 입력으로 문장을 쓰는 것」이 오랫동안 본인의 주된 입력 수단이었던 인물이다. -
Jack McIntire (CTO, 하버드 중퇴): 전 Arcturus Intelligence의 엔지니어.

「음성으로 쓰는 것」에 진심으로 임해온 사람들이 만들고 있는 프로덕트라는 배경이, 사용하자마자 바로 느껴진다.

기술적 접근 방식은 Audio + LLM의 클라우드 처리다. Superwhisper의 로컬파와는 사상이 정반대로, 클라우드의 연산력을 전력으로 사용하여 정밀도와 응답성을 확보한다. 공칭 수치로 다음과 같은 숫자를 제시하고 있다.

  • 기동 50ms 이하
  • 발화 정지부터 텍스트 삽입까지 450ms
  • 기술 용어 인식 정밀도 97%

실제로 사용해 보니 위의 수치에 거짓은 없다고 느껴진다. Claude Code에 대한 지시를 말하는 순간 텍스트가 입력되어 있다. useState, tsconfig, pnpm과 같은 개발 계열 용어도 거의 틀리지 않는다.

나란히 사용해 본 결과, 나에게 결정적인 요인이 된 것은 세 가지였다.

개발자의 발화는 「useEffect의 dependency 배열에 dependency 값을 넣어줘」와 같이 일어와 영어가 혼재된다. Aqua Voice는 이 케이스를 안정적으로 처리한다. 반면 다른 앱들은 영어 단어 부분에서 빈번하게 가타카나화되거나 오인식되는 현상이 발생했다.

발화를 멈춘 순간 텍스트가 입력되어 있다는 경험은 상상 이상으로 효과적이다. 0.5초의 지연(Lag)만 있어도 '기다리고 있다'는 감각이 생기는데, 지연이 없는 상태는 사고의 흐름을 끊지 않는다.

Aqua Voice에는 입력된 텍스트를 LLM으로 정형화하는 모드(명령문 정형화, 코드 정형화 등)가 있다. 말한 내용이 그대로 'Claude Code에 지시하기 쉬운 문장'으로 정형화되어 입력되므로, 나중에 텍스트를 수정하는 수고가 거의 없다.

이것은 놓치기 쉬운 부분(Blind spot)이었다.

Mac 내장 마이크로 사용하는 것과 AirPods Pro 2로 사용하는 것은 체감상 인식 정밀도에서 확연한 차이가 난다. 내장 마이크를 사용하면 주변 소음과 공조기 소리를 흡수하여, 특히 영어 단어의 발음이 오인식되기 쉽다. AirPods로 전환하는 것만으로도 텍스트가 깨지는 빈도가 눈에 띄게 줄어든다.

그 이유는 아마도 입과의 거리, 빔포밍 (Beamforming), 노이즈 저감 (Noise reduction) 때문일 것이며, 이는 어떤 음성 입력 앱에서도 유효할 것이다. 음성 입력을 본격적으로 운용하려면 내장 마이크를 버리고 이어폰으로 전환하라. 이것만으로도 경험이 상당히 달라진다.

Aqua Voice와 VoiceOS는 클라우드(Cloud)에서 처리된다. 즉, 내가 말한 음성과 텍스트는 해당 회사의 서버를 통한다.

평소의 개발 용도로는 문제가 없지만,

  • 고객 정보 및 개인 정보가 포함된 지시
  • 미공개 사업 계획 및 경영 정보
  • 사외비 코드베이스(Codebase) 내용

을 말할 때는 주의가 필요하다. 그런 상황에서는 로컬(Local) 처리 방식인 Superwhisper(whisper.cpp나 Parakeet를 단말기 상에서 구동하는 구성)로 전환하거나, 애초에 음성 입력을 사용하지 않고 키보드로 돌아가는 것이 안전하다.

타이핑을 좋아하는 사람에게는 '굳이 음성으로 전환할 의미가 있을까'라고 생각될지도 모른다. 나도 처음에는 그랬다.

하지만 AI에게 긴 프롬프트 (Prompt)를 작성하는 생활을 매일 하다 보면, 사고의 속도에 비해 키보드 입력은 명백히 느리다. 생각하고 있는 것을 그대로 말하는 편이 텍스트로 변환하는 과정에서의 마찰이 압도적으로 적다. 이는 개발자에게만 국한된 이야기가 아니라, ChatGPT에 리서치를 맡기는 PM, Claude에게 기획서 초안을 쓰게 하는 PdM, 생성형 AI로 소재를 만드는 디자이너, Notion AI로 회의록을 정리하는 운영 담당자 등 AI를 업무에 활용하는 모든 사람에게 유효한 이야기라고 생각한다.

"프롬프트 작성이 귀찮다"고 느끼는 사람일수록 효과가 크다.

요약하자면,

  • Mac 표준은 AI 용도로는 쓸모가 없다 (짧은 영어 단어조차 깨짐)
  • Superwhisper는 프라이버시를 중시하는 로컬 파, 기밀 정보를 다루는 사람용
  • VoiceOS는 에이전트 (Agent)형의 야심은 있으나 현시점에서는 Aqua Voice의 정밀도에 미치지 못함
  • Aqua Voice는 클라우드에서 전력을 다해 튜닝되어 있으며, AI 지시 용도로는 현재 베스트
  • AirPods를 사용하는 것만으로 정밀도가 한 단계 올라감
  • 클라우드 계열은 기밀 정보 입력에 주의

음성 입력은 '타이핑의 대체'라기보다, AI에게 지시하는 레이어(Layer)에서 효력을 발휘하는 새로운 입력 장치라는 것이 3개월간 사용해 본 지금의 소감입니다.

주식회사 신시아(Cynthia)에서는 실무 경험이 없는 엔지니어 및 학생 엔지니어 인턴을 채용하여 함께 일하고 있습니다.

※ 신시아의 근무 모습은 이쪽에서 확인하실 수 있습니다.

  • Aqua Voice — Y Combinator
  • Launch HN: Aqua Voice (YC W24) – Voice-driven text editor
  • Superwhisper 공식
  • How a Toronto AI startup hopes to make the keyboard obsolete — The Globe and Mail
  • AIMinds Podcast with Neil Chudleigh (Superwhisper)
  • VoiceOS — Y Combinator
  • Introducing Whisper — OpenAI
  • openai/whisper-large-v3 — Hugging Face

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0