Aantraa 제작기
요약
AI 기반 오디오/비디오 번역 및 쇼츠 생성 서비스인 Aantraa의 제작 과정을 다룹니다. OpenRouter를 활용한 다중 모델 통합과 ffmpeg를 이용한 비디오 처리 파이프라인 구축 노하우를 공유합니다.
핵심 포인트
- OpenRouter를 통한 다양한 LLM 모델의 효율적 활용
- ffmpeg와 AI를 결합한 비디오 번역 워크플로우 구축
- 단계별 프로세스 추적을 통한 프로덕션 디버깅 전략
- 롱폼 영상을 쇼츠로 변환하는 AI 자동화 파이프라인
Aantraa 제작기
aantraa.site — AI 오디오 및 비디오 번역, 자막 생성기, 그리고 바이럴 쇼츠 커터(viral shorts cutter).
내부 구조 (Under the Hood)
저는 작은 YouTube 채널을 운영하고 있습니다. 전업 콘텐츠 크리에이터는 아니지만, YouTube는 온라인 작업, 비즈니스, 프로젝트 또는 아이디어를 위한 트래픽을 얻기에 매우 견고한 플랫폼입니다.
Aantraa는 제가 일주일 만에 구축한 것입니다. 핵심 개념은 간단합니다:
- 다양한 언어로의 비디오 번역 (Video translation)
- 오디오 번역 (Audio translation) — Premiere Pro용 MP3 출력을 포함한 텍스트 음성 변환 (text-to-audio) 포함
- 롱폼에서 쇼츠로 (Long-form to shorts) — YouTube 롱폼 비디오를 짧은 클립으로 변환
당시에는 세 가지 기능만 필요했기 때문에 웹사이트 개발 자체는 큰 부담이 아니었습니다. 진짜 작업은 API를 구축하고, 비디오에 AI를 통합하기 위한 백엔드 인프라를 만들며, 대용량 스토리지를 처리하는 것이었습니다.
실행 단계별 분석: Aantraa를 만든 방법
AI LLM 레이어링 및 제공업체
Aantraa는 AI API에 크게 의존합니다. 즉, LLM 제공업체를 위한 신뢰할 수 있는 인프라가 필요합니다.
OpenRouter, Portkey, Vercel AI SDK labs, 그리고 Anthropic, Deepseek, OpenAI를 위한 개별 API들이 견고한 옵션들입니다.
저는 한 가지 이유로 Aantraa에 OpenRouter를 선호합니다. 바로 다중 모델 지원 (multiple model support) 때문입니다. 각 작업에 대해 가장 저렴하면서도 역량 있는 모델을 선택하기가 쉽습니다. 통합이 용이하고, 강력한 커뮤니티 지원을 받으며, 무료 모델 접근이 가능하다는 등의 장점이 있습니다.
AI LLM API는 백엔드의 거의 모든 단계에서 필요합니다:
- 비디오 문맥(context) 이해 및 스크립트 생성
- 스크립트를 대상 언어로 번역
- 스크립트를 MP3 또는 WAV 형식으로 녹음
- 비디오 요약
- 자막 생성
- 비디오를 쇼츠로 편집
API 및 서버 구축
각 레이어에는 방대한 AI 문맥(context)과 프롬프트 엔지니어링 (prompt engineering)이 필요합니다. 여기서 트렌드는 **루프 엔지니어링 (Loop engineering)**이며, Aantraa에도 반드시 필요합니다.
예를 들어, **비디오 번역 (video translation)**은 여러 개의 연결된 단계로 작동합니다:
비디오 번역 API 세부 분석
- AI가 비디오를 이해하고, ffmpeg 모듈을 통해 LLM에 입력됩니다.
- AI가 비디오로부터 스크립트/자막 (script/caption)을 생성합니다.
- AI가 스크립트를 원하는 언어로 번역합니다.
- AI가 새로운 번역본의 오디오 (MP3 또는 WAV)를 생성합니다.
- AI가 ffmpeg를 사용하여 오디오와 비디오를 하나로 결합합니다.
각 단계는 이전 단계에 의존하므로, 무언가 고장 났을 때 프로덕션 디버깅 (production debugging)을 수행하기 어렵습니다.
해결책: 사용 토큰 (usage tokens), 예상 시간, 오류, 응답 메타데이터 (response metadata) 등 각 프로세스를 추적합니다.
동일한 패턴이 오디오 번역, 바이럴 클립 커터 (viral clip cutter), 자막 생성기 (caption generator)에도 적용됩니다.
인프라 및 서버 (Infrastructure and servers)
로컬 API 개발은 프로덕션에 배포하기 전까지는 관리할 만한 수준입니다.
| 계층 (Layer) | 선택 (Choice) |
|---|---|
| 프레임워크 (Framework) | Hono.js |
| ... |
파일 업로드를 위해 AWS S3 및 Firebase/Supabase 스토리지의 실용적인 대안으로 UploadThing을 찾았습니다. 이는 파일을 빠르게 업로드할 수 있는 클라이언트 및 서버 SDK를 제공합니다 (무료 플랜의 경우 청크당 5 MB).
모든 AI 계층이 자체적인 메모리를 유지하지 않기 때문에 스토리지(storage)가 많이 필요합니다. 생성된 모든 오디오/비디오 파일은 반드시 스토리지에 저장되어야 합니다.
FFmpeg는 비디오 및 오디오 작업에 필수적이지만, 서버리스 함수 (serverless functions) 및 Vercel Edge에서는 제한 사항이 있습니다. 이로 인해 더 무거운 미디어 워크로드 (media workloads)를 처리하기 위해 Fly.io, Railway 또는 Render를 고려하게 되었습니다.
90개 이상의 언어로 비디오 번역
Aantraa는 비디오 및 오디오 번역을 위해 90개 이상의 언어를 지원합니다.
AI는 스크립트, 텍스트, 화면상의 텍스트 및 비디오 문맥 (video context)을 잘 번역합니다. AI는 스크립트와 각 프레임을 통해 비디오를 이해해야 합니다. FFmpeg가 해당 파이프라인 (pipeline)을 돕습니다.
흐름:
- AI가 소스(source)로부터 스크립트를 생성합니다.
- AI가 대상 언어로 번역합니다.
- AI가 해당 언어로 더빙된 오디오를 생성합니다.
- FFmpeg가 오디오와 비디오를 병합하여 새로운 번역 파일을 만듭니다.
각 단계에는 디버깅, 프롬프트 엔지니어링 (prompt engineering) 및 FFmpeg 통합이 필요합니다.
마지막으로, 결과물은 스토리지에 업로드되고 클라이언트에게 다운로드 및 재생을 위한 URL을 반환합니다.
다국어 오디오를 MP3로 변환
Aantraa는 단순히 비디오 번역만을 위한 것이 아닙니다. 크리에이터로서 저는 블로그 포스트나 텍스트를 팟캐스트 스타일의 오디오로 변환하여 들을 수 있게 만들고 싶었습니다.
오디오 번역 (audio translation) 도구는 다음 기능을 포함합니다:
- 텍스트를 오디오로 (Text to audio) — MP3 또는 WAV 다운로드
- 텍스트 및 비디오 소스에 대해 90개 이상의 언어 지원
- 비디오를 오디오로 (Video to audio) 추출 및 번역
- 다양한 대상 언어 (Multiple target languages) 병렬 처리
이 덕분에 Aantraa는 지원 플랫폼 역할을 합니다. 하나의 녹음 파일로 90개 이상의 언어 MP3를 생성하여 클릭 한 번으로 공유할 수 있습니다.
YouTube 비디오를 쇼츠로 변환
바이럴 쇼츠 (viral shorts) 기능은 긴 형식의 YouTube 비디오를 채널에 직접 업로드할 수 있는 짧은 클립으로 변환합니다.
API 상세 분석
- AI가 전체 비디오 문맥(context) — 요약 및 스크립트를 이해합니다.
- AI가 스크립트를 타임스탬프(timestamp)별로 원하는 쇼츠 개수에 맞춰 나눕니다.
- FFmpeg가 각 클립을 자르고, API가 스토리지에 업로드합니다.
단순해 보이지만, 실제 제작에는 FFmpeg 튜닝, AI 문맥 제한(context limits), 그리고 파일 크기 가드레일(guardrails)이 필요합니다. 약 10MB를 초과하는 비디오는 처리하는 데 더 많은 시간과 비용이 소요됩니다.
비디오 번역 사례
스페인어, 힌디어, 벵골어, 구자라트어, 마라티어, 타밀어, 프랑스어, 영어, 일본어, 중국어 등을 포함한 10개 이상의 번역된 비디오를 사례 페이지에서 확인해 보세요.
90개 이상의 언어를 지원함으로써 Aantraa는 보편적이고 글로벌한 플랫폼이 됩니다.
결론
첫 번째 버전이 출시되었습니다. 또한 비즈니스 에이전시 및 스타트업 팀을 위한 API도 제공하고 있으니, 관심이 있다면 문의(contact)를 통해 연락해 주세요.
링크
- 웹사이트: aantraa.site
- 블로그: aantraa.site/blog
- 사례: aantraa.site/examples
- 가격: aantraa.site/#pricing
제품을 사용해 보시고 피드백을 공유해 주세요. 초기 가입자에게는 AI 번역 크레딧 1분 무료 혜택을 드립니다.
감사합니다,
Shrey
Aantraa · aantraa.site
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기