
【무료】 AI 일본어 음성이 드디어 '성우 수준'으로. Irodori-TTS로 감정이 풍부한 AI 보이스를 만드는 방법【로컬·상용 가능】
요약
Irodori-TTS는 일본어 특화 Flow Matching 기반의 로컬 구동형 무료 TTS 도구입니다. 이모지와 기호를 활용해 풍부한 감정과 비언어적 표현을 구현하며, 상용 이용이 가능한 MIT 라이선스를 제공합니다.
핵심 포인트
- 일본어 특화 모델로 높은 정확도와 풍부한 감정 표현 가능
- 이모지와 기호를 활용한 혁신적인 감정 프롬프팅 지원
- 로컬 구동 방식으로 무제한 무료 및 상용 이용 가능
- Flow Matching 기반 500M 파라미터 모델 사용
우선 들어보세요.
지금까지 AI가 생성한 일본어는 "아, AI네"라는 느낌이 강하지 않았나요?
굉장히 부자연스러운 읽기 실수. 감정 없는 국어책 읽기.
'그야 성우를 대신하는 건 무리겠지...'라고 생각했었죠.
그것이 드디어 여기까지 왔습니다.
흘려듣듯 기사를 읽어보세요.
도구의 이름은, Irodori-TTS.
그 이름처럼, AI 음성에 색채를 더해줍니다.
게다가 이것은, 로컬(Local)에서 구동되는 무료 도구입니다.
그뿐만 아니라, 상용 이용도 가능합니다.
바로 살펴보겠습니다.
Irodori-TTS의 실력: 일본어 특화, 감정 제대로 탑재
대략 이런 도구입니다.
일본어 입력 시, 체감상 95% 정도는 파탄 없이 출력됨. 게다가 감정이 풍부함. 읽는 법을 헤매지 않는 일본어는 거의 완벽하며, 난독어도 70% 정도는 정확함.-
로컬 동작이므로 생성 무제한·무료. 과금이나 API 제한도 없음. -
MIT 라이선스로, 상용 이용 및 개변이 제한 없이 자유롭게 가능. -
Aratako님이 개발한, 500M 파라미터의 Flow Matching 기반 모델.
참고로, 얼마 전 v3도 출시되었습니다. 진화가 빠릅니다.
적합한 용도 · 적합하지 않은 용도
🟢 적합한 용도
- 애니메이션, 영화, 보이스 드라마처럼 감정의 기복을 리얼하게 표현하고 싶은 일본어 음성
- YouTube 나레이션, e-러닝 교재, ASMR, 팟캐스트
- 1대사 단위로 '베스트 테이크(Best Take)'를 선발해 나가는 스타일의 제작
🔴 적합하지 않은 용도
- 실시간 대화 ("말을 듣고, 간격을 두어, 즉시 응답"하는 것과 같은 종류)
※ 생성에 6초 정도 걸리므로, 그 정도의 랙(Lag)이 허용되는 환경이라면 간신히 사용 가능할지도 모릅니다.
간단한 사용법 (조작만 한다면 1분)
- 터미널/명령 프롬프트에서 클론(Clone) & 기동
- Load Model 버튼으로 모델을 로드한다
- 일본어로 대사를 작성한다
- 목소리의 분위기를 프롬프트(Prompt)로 지정하거나 원래 음성 데이터를 전달한다
- Generate 버튼으로 생성하고, 좋은 테이크를 선발한다
이렇게 하면 아까와 같은 결과물이 나옵니다. 정말 대단하지 않나요?
감정을 싣는 법: 대사 + 기호 + 이모지
이 부분이 Irodori-TTS의 가장 재미있는 점입니다. 대사 그 자체 + 기호 + 이모지로 강력한 감정 프롬프트가 됩니다.
① 대사 자체
덤덤한 대사라면 덤덤하게, 억울하거나 화가 난 대사라면 자연스럽게 그런 감정이 실립니다. 문장의 뉘앙스를 제대로 읽어낸다는 점이 놀랍습니다.
② 기호
「、」「?」「!」「!?」와 같이 대사에서 흔히 쓰이는 기호를 넣으면 단번에 감정이 실립니다.
③ 이모지 (이것이 혁명)
「😆」와 같은 이모지를 대사 앞에 넣으면 더욱 표정이 풍부한 감정이 실립니다.
게다가 감정뿐만 아니라,
- 숨 고르기
- 숨 가쁨
- 숨을 삼킴
과 같은 다채로운 비언어적 표현도 가능합니다. 이것은 보이스 드라마를 만드는 입장에서는 정말 혁명입니다.
샘플로 사용한 프롬프트
인물을 한 명씩 내보냈는데, 이런 프롬프트로 출력했습니다.
이것을 보면 알 수 있듯이, 대충 일본어만 써 놓아도 꽤 의도를 파악하여 감정을 내줍니다. 대체 어떤 흑마술인가요.
들으면서 따라갈 수 있도록 다시 한번 붙여놓겠습니다.
<대사용 프롬프트 모음>
🥺지금까지의 AI 보이스는 국어책 읽기였고,😭말실수 같은 것도 많았잖아요?
😎하지만! 이것을 사용하면,😮😮💪엄청난 보이스를 만들 수 있습니다!
...
영상화는 생성한 목소리를 영상 편집 소프트웨어(Final Cut Pro)에서 하나로 합치고, ChatGPT로 생성한 이미지와 Suno로 생성한 BGM을 붙였습니다.
자, 그럼 여기서부터는 넣는 법에 대한 해설입니다.
다운로드 · 기동 방법
레포지토리(Repository)를 클론하고, uv로 셋업합니다. 버전이 두 가지가 있어, 기동 시 어느 것을 사용할지 선택할 수 있습니다.
※ Mac용입니다. Windows 사용자는 Gigazine에 좋은 기사가 있으니 참고하시기 바랍니다.
통상판: 참조 음성(수 초의 음원 데이터)을 전달하여 그 목소리 질감으로 생성 -
VoiceDesign판: 텍스트로 목소리 질감을 지정 (예: "차분한 여성의 목소리로, 부드럽게")
추천하는 방법은 VoiceDesign판으로 생성한 느낌 좋은 목소리를 통상판의 레퍼런스(Reference)로 사용하는 것입니다.
(방금 전의 음성은 모두, VoiceDesign 버전으로 "냉정침착한 소녀, 담담하게 말함", "쉰 목소리의 마법사 노인 남성" 같은 간단한 프롬프트(Prompt) + 대사로 생성한 음성을, 통상판의 참조 음성(Reference Audio)으로 사용했습니다.)
공통: 셋업 (Setup)
git clone https://github.com/Aratako/Irodori-TTS.git
cd Irodori-TTS
brew install uv
...
통상판 (참조 음성으로 목소리 만들기) 실행
uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7861
VoiceDesign 버전 (프롬프트로 목소리 만들기) 실행
uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7862
실행 후 브라우저에서 http://0.0.0.0:7861
(또는 7862)에 접속.
처음 실행할 때의 주의사항
모델 용량이 2GB 정도이며, 처음 'Load Model'을 눌렀을 때 자동으로 다운로드됩니다. UI상으로는 '로딩 중(Loading)'으로만 표시되지만, 터미널(Terminal) 측에서는 열심히 다운로드 중입니다. 느긋하게 기다려 주세요. -
Python, Git, uv가 필요합니다. Windows라면 winget으로 설치하는 것이 편합니다.
자, 자유자재로 일본어 음성을 만들어 봅시다!
Irodori-TTS로 다양한 목소리를 자유롭게 만들어 보세요.
저는 지금 형의 소설로 보이스 드라마를 만들고 있습니다. AI 음성이 이 정도 수준까지 왔기에, "성우를 고용하지 않으면 불가능"했던 기획을 개인 수준에서 전부 할 수 있게 되었습니다. 정말 대단한 시대입니다.
그런데, 이 '목소리'를 활용할 곳이 필요하겠죠?
삿포로에서 AI 영화제를 개최합니다. 멋진 목소리 + 영상을 만드신 분들은 꼭 응모해 주세요.
당일 삿포로에 오실 수 있는 크리에이터의 작품은 전원 상영합니다.
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기