본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 15. 11:49

AmiVoice×Gemini를 활용해 한국 클리닉의 상담 내용을 일본어로 바꿔보았다

요약

AmiVoice의 한국어 엔진과 Gemini API를 결합하여 한국 클리닉의 상담 음성을 일본어 요약본으로 변환하는 도구를 개발했습니다. 음성 인식(STT)과 LLM을 활용해 시술 내용과 주의사항을 자동으로 정리합니다.

핵심 포인트

  • AmiVoice API를 통한 정밀한 한국어 음성 텍스트 변환
  • Gemini API를 활용한 일본어 번역 및 구조화된 요약 생성
  • Claude Code를 사용하여 코드 작성 없이 HTML 도구 구현
  • 의료/미용 분야의 전문 용어 대응 및 환자 편의성 증대

AmiVoice×Gemini를 활용해 한국 클리닉의 상담 내용을 일본어로 바꿔보았다

한국의 미용 클리닉이나 치과에서 시술을 받는 일본인 환자가 늘고 있다. 하지만 큰 문제가 있다. 상담 내용이 한국어로 설명되기 때문에, 시술 후에 "무슨 말을 들었더라?" 하는 상황이 발생하기 쉽다는 점이다.

이 문제를 해결하기 위해, AmiVoice API (한국어 엔진) × Gemini API를 조합한 도구를 만들었다. 한국어 음성을 녹음해 두기만 하면, 일본어 요약과 시술 내용·주의사항이 불렛 포인트(bullet points)로 자동 생성된다.

만든 것

한국어 음성 텍스트 변환(Transcription) & 일본어 요약 도구

  • 한국어 음성 파일(mp3/wav)을 업로드
  • AmiVoice의 한국어 엔진으로 텍스트 변환
  • Gemini로 일본어 번역 및 요약
  • 시술 내용·주의사항·홈케어를 불렛 포인트로 출력

코드는 한 줄도 쓰지 않았다. Claude Code에 일본어로 요청하여 파일 1개의 HTML을 완성했다.

왜 AmiVoice를 선택했는가

음성 인식 API의 선택지는 여러 가지가 있지만, AmiVoice를 선택한 이유는 두 가지가 있다.

첫 번째는 일본어 인식 정밀도가 높다는 것이다. 한국어 음성을 그대로 텍스트 변환한 후, Gemini에게 번역 및 요약을 시키는 구성상, 텍스트 변환의 정밀도가 최종 출력 품질에 직결된다.

또 다른 이유는 한국어 엔진을 정식 지원한다는 것이다. AmiVoice API는 2024년 5월에 한국어 엔진을 출시하였으며, 구두점 자동 삽입 및 띄어쓰기(띄어쓰기)에도 대응하고 있다. 의료·미용 분야의 전문 엔진을 보유한 AmiVoice라면 상담 특유의 어휘에도 대응할 수 있다고 판단했다.

기술 구성

한국어 상담 음성 (이번에는 ElevenLabs로 작성)
↓
AmiVoice API (한국어 엔진: -a-general-ko)
...

사용한 API:

  • AmiVoice API: 동기 HTTP 인터페이스 (/v1/recognize), 한국어 엔진 grammarFileNames=-a-general-ko

  • Gemini API: gemini-2.5-flash, JSON 출력으로 요약과 3가지 항목의 불렛 포인트를 안정적으로 취득

작동시켜 보았다

테스트 음성은 ElevenLabs로 작성했다. 리프팅 시술 상담을 상정한 한국어 스크립트를 읽게 했다 (0.5MB, 약 30초).

"텍스트 변환 & 번역 실행"을 누르면, AmiVoice와 Gemini가 차례대로 작동하기 시작한다.

한국어 텍스트 변환 결과:

안녕하세요 오늘 상담 내용을 정리해드릴게요. 오늘은 리프팅 시술에 대해 상담해 주셨습니다...

일본어 요약 (환자용):

오늘은 리프팅 시술에 대해 상담해 주셔서 감사합니다. 현재 피부 상태를 확인한 결과, 볼 주변의 탄력이 조금 저하되어 있어 '울세라 시술'이라는 리프팅 치료를 추천해 드렸습니다. 시술 후에는 약간의 부기나 붉은 기가 나타날 수 있으나, 보통 3일에서 5일 정도면 진정됩니다. 시술 효과는 약 1개월 후부터 나타나기 시작하며, 6개월에서 1년 정도 지속됩니다.

포인트 요약:

  • 🔧 시술 내용: 볼 처짐 개선을 목적으로 한 울세라 시술 (리프팅 치료)
  • ⚠️ 시술 후 주의사항: 시술 후 일시적으로 부기나 붉은 기가 나타날 수 있으나, 보통 3일에서 5일 정도로 가라앉습니다
  • 🏠 다음 내원까지의 홈케어: 음성 내에 해당되는 설명은 없었습니다

활용 시나리오와 발전 가능성

이 도구를 만들면서 응용 가능성이 넓어진다는 것을 깨달았다.

환자에게 제공

상담 후에 일본어 요약을 LINE이나 이메일로 보내면, "귀가 후에 내용을 잊어버렸다", "주의사항이 기억나지 않는다"라는 문제를 해결할 수 있다. 한국어를 이해하지 못하는 일본인 환자라도 시술 내용을 안심하고 확인할 수 있다.

마케팅·평가 도구로서의 응용

한 걸음 더 나아가면, "어떠한 상담 방식이 환자의 의사 결정에 영향을 미치는가"를 분석하는 마케팅 도구로도 발전할 수 있다.

여러 건의 상담 녹음을 AI로 분석하면, 성약률(계약 성공률)이 높은 담당자의 말하기 패턴이나 환자가 불안을 느끼는 포인트를 시각화할 수 있다. 상담 담당자의 평가나 육성에도 활용할 수 있을 것이다.

음성 인식은 '텍스트 변환'으로 끝나는 것이 아니라, 그 너머의 데이터 활용까지 시야에 넣음으로써 클리닉 경영의 개선 도구가 될 수 있다.

요약

사용한 API: AmiVoice API (한국어 엔진) × Gemini API

공정: 스크립트 작성 → ElevenLabs로 음성 생성 → Claude Code로 툴 제작 → 동작 확인. 총 약 2시간

직접 작성한 코드: 0줄

느낀 점: 음성 인식은 '정확하게 듣는 것'뿐만 아니라, '누구를 위해, 무엇을 위해 사용할 것인가'를 설계함으로써 완전히 다른 가치를 창출한다. 일본어 × 한국어라는 언어의 장벽을 넘는 유스케이스는 인바운드 의료 현장에서 아직 거의 손대지 않은 영역이라고 느꼈다.

AmiVoice API 무료 트라이얼 (월 10시간)은 여기에서 확인하세요: https://acp.amivoice.com/amivoice_api/

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0