Sarvam AI를 활용한 시각 장애 학생을 위한 음성 우선 평가 플랫폼 구축
요약
Sarvam AI의 TTS 및 STT 기술을 활용하여 시각 장애 학생들을 위한 음성 우선(Voice-first) 평가 플랫폼을 구축한 사례를 소개합니다. 기존 스크린 리더의 어색한 발음을 극복하고 인도식 영어 억양을 자연스럽게 구현하여 접근성을 혁신했습니다.
핵심 포인트
- Sarvam AI를 통해 자연스러운 인도식 영어 억양의 TTS 구현
- React, Express.js, PostgreSQL 기반의 풀스택 웹 앱 구축
- 단 두 가지 제스처로 조작 가능한 음성 중심 인터페이스 설계
- 음성 품질이 사용자 신뢰와 접근성 경험에 미치는 중요성 강조
컴퓨터 기반 평가에는 조용한 접근성 문제가 존재합니다. 대부분의 플랫폼은 사용자가 화면의 텍스트를 읽고, 옵션을 클릭하며, 답변을 입력할 수 있다고 가정합니다. 시각 장애 학생들 — 특히 인도에서 — 이러한 가정은 그들을 사실상 완전히 배제하는 결과를 초래합니다.
저는 이를 해결하고 싶었습니다. 임시방편이 아니라, 처음부터 음성에 최적화된(native to voice) 경험을 통해 말이죠.
문제점 (The Problem)
스크린 리더(Screen readers)가 존재하지만, 사용법이 번거롭고 별도의 설정이 필요하며, 종종 인도식 이름, 단어, 문장 구조를 부자연스럽고 어색하게 발음합니다. 이러한 경험은 금방 무너집니다. 시각 장애가 있는 인도 학생들이 실제로 필요로 하는 것은 주변 사람들이 말하는 방식 그대로 — 익숙한 억양으로, 자연스러운 속도로, 매뉴얼을 읽는 로봇처럼 들리지 않게 — 말을 걸어주는 시스템입니다.
그것이 저를 Sarvam AI로 이끌었습니다.
왜 Sarvam인가 (Why Sarvam)
이전에 다른 TTS (Text-to-Speech) API들을 사용해 본 적이 있습니다. 기술적으로는 작동했습니다. 하지만 항상 무언가 어색했습니다. 목소리의 단조로움, 약간 서구적인 억양, 그리고 흔한 힌디어 유래 단어들의 발음은 해당 모델이 자연스럽게 구사되는 인도식 영어를 실제로 들어본 적이 없다는 사실을 명백히 드러냈습니다.
Sarvam의 TTS는 달랐습니다. 테스트 질문을 처음 실행했을 때, 출력된 결과는 실제 사람이 말하는 것처럼 들렸습니다. 억양은 따뜻하고 친숙했습니다. 인도 학생이 마찰 없이 실제로 신뢰하고 따를 수 있는 종류의 목소리였습니다. 그 순간 프로젝트에 대한 제 생각이 바뀌었습니다. 이것은 더 이상 단순한 편의 기능이 아니었습니다. 그것은 경험의 핵심이었습니다.
내가 구축한 것 (What I Built)
이 플랫폼은 프론트엔드에는 React와 Tailwind, 백엔드에는 Express.js, 그리고 사용자 데이터와 점수 저장을 위한 PostgreSQL을 사용하여 구축된 풀스택 (Full-stack) 웹 앱입니다. 상호작용 모델은 의도적으로 단순하게 설계되었습니다. 화면 어디든 한 번 클릭하면 Sarvam TTS가 현재 질문을 소리 내어 읽어줍니다. 더블 클릭하면 듣기 모드가 시작되며, Sarvam STT를 사용하여 사용자의 음성 답변을 텍스트로 변환 (Transcription) 합니다. 키보드가 필요 없습니다. 마우스의 정밀한 조작도 필요 없습니다. 단 두 가지 제스처만으로 전체 평가 과정을 탐색할 수 있습니다.
데모를 위해, 저는 스트레스 수준 감지 심리 검사를 구축했습니다. 사용자가 로그인하면 시스템이 각 질문을 소리 내어 읽어주고, 사용자가 답변을 말하면 마지막에 스트레스 점수와 전체 응답 기록이 백엔드에 저장됩니다.
놀라운 점
Sarvam의 API를 통합하는 과정은 구축 과정 중 진정으로 가장 매끄러운 부분이었습니다. 깔끔한 엔드포인트 (Endpoints), 예측 가능한 응답, 최소한의 설정. 하지만 진짜 놀라웠던 점은 음성 품질이 제품의 느낌을 얼마나 크게 바꾸었는가 하는 점이었습니다. 좋은 억양 (Accent)은 사소한 디테일이 아닙니다. 그것은 사용자가 겨우 참으며 사용하는 도구와, 실제로 신뢰하는 도구 사이의 차이를 만듭니다.
인도 영어 (Indian English)는 고유의 리듬이 있습니다. Sarvam의 TTS는 이를 포착해냅니다. 목소리가 인터페이스의 전부인 접근성 (Accessibility) 활용 사례에서, 이는 다른 어떤 기술적 결정보다 더 중요합니다.
다음에 구축할 수 있는 것
이 기술 스택은 많은 방향성을 제시합니다. 문해력이 낮은 농촌 지역 학생들을 위한 음성 우선 학습 플랫폼, 글을 읽을 수 없는 환자들을 위한 인도 언어 기반 의료 접수 양식, 복잡한 서류 작업을 시민들에게 안내하는 음성 기반 정부 양식 어시스턴트 등이 있습니다. 또한, 기존의 어떤 웹 앱이라도 Sarvam TTS와 STT를 상단에 얹어 수백만 명의 사람들에게 즉시 사용 가능하게 만드는 접근성 레이어를 구축할 수도 있습니다.
인프라는 단순하지만, 그 영향력은 단순하지 않습니다. 만약 인도 시장을 위해 무언가를 구축하고 있다면, Sarvam의 모델을 진지하게 검토해 볼 가치가 있습니다. 단순히 인도 언어를 지원하기 때문이 아니라, 인도 사용자들이 어떻게 말하고 듣는지를 실제로 이해하고 있기 때문입니다. 그것은 완전히 다른 차원의 문제입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기