비디오에서 텍스트, 자막 및 워터마크를 제거하는 AI 도구 구축하기

최근 저는 AI Remover라는 소규모 AI SaaS 제품을 개발해 왔습니다.

아이디어는 간단합니다. 많은 크리에이터, 마케터, 그리고 소규모 팀들이 원치 않는 텍스트, 자막, 캡션 또는 워터마크와 같은 오버레이가 포함된 비디오나 이미지를 가지고 있습니다. 프레임별로 수동 편집하는 대신, 이 작업 흐름을 더 쉽게 만들어주는 온라인 도구를 만들고 싶었습니다.

프로젝트는 현재 여기서 이용 가능합니다:

👉 https://airemover.org

AI Remover가 하는 일

AI Remover는 사용자가 비디오와 이미지에서 원치 않는 텍스트를 온라인으로 제거할 수 있도록 설계되었습니다.

현재 사용 사례에는 다음이 포함됩니다:

비디오에서 텍스트 제거
비디오에서 자막 제거
비디오에서 캡션 제거
비디오에서 워터마크 같은 오버레이 제거
이미지에서 텍스트 제거

목표는 단순히 또 다른 업로드 버튼을 만드는 것이 아니었습니다. 저는 이 제품이 실제 작업 흐름처럼 느껴지기를 바랐습니다. 즉, 파일을 업로드하고, AI가 처리하도록 하고, 결과를 미리 보고, 더 깨끗한 버전으로 다운로드하는 것입니다.

제가 이것을 만든 이유

AI 비디오 도구를 개발하면서, 많은 사용자들이 일반적인 “AI 비디오 편집” 도구를 검색하지 않는다는 것을 알게 되었습니다.

그들은 다음과 같이 매우 구체적인 문제를 검색합니다:

“remove text from video” (비디오에서 텍스트 제거)
“remove subtitles from video” (비디오에서 자막 제거)
“remove captions from video” (비디오에서 캡션 제거)
“remove watermark from video” (비디오에서 워터마크 제거)
“remove text from image” (이미지에서 텍스트 제거)

이로 인해 저는 작고 문제에 초점을 맞춘 AI 도구들이 광범위한 AI 플랫폼보다 더 나은 검색 의도를 가질 수 있다는 것을 깨달았습니다.

처음부터 거대한 올인원 에디터를 구축하는 대신, 원치 않는 텍스트를 시각적 콘텐츠에서 제거한다는 하나의 명확한 고통 지점에 집중하기로 결정했습니다.

제품 개발의 어려움

이러한 종류의 도구를 만드는 것은 보이는 것보다 어렵습니다.

어려운 부분은 AI 모델에 관한 것만이 아닙니다. 실제 제품상의 도전 과제에는 다음이 포함됩니다:

다양한 유형의 텍스트

비디오 속의 텍스트는 여러 형태로 나타날 수 있습니다:

burned-in subtitles (구워진 자막)
social media captions (소셜 미디어 캡션)
stickers (스티커)
product labels (제품 라벨)
watermark-like overlays (워터마크 같은 오버레이)
image text (이미지 텍스트)
moving text across frames (프레임 전반에 걸쳐 움직이는 텍스트)

단순한 “이 영역 제거” 기능만으로는 충분하지 않습니다. 도구는 원치 않는 텍스트가 어디에 있는지 이해하고 배경을 자연스럽게 재구성(reconstruct)해야 합니다.

처리 시간 (Processing time)

비디오 처리(Video processing)는 특히 파일이 길거나 고해상도인 경우 느려질 수 있습니다.

웹 제품의 경우 속도가 매우 중요합니다. 사용자가 짧은 영상을 업로드하고 너무 오래 기다려야 한다면, 결과를 확인하기도 전에 떠날 수 있습니다.

따라서 제가 지속적으로 목표로 하고 있는 것 중 하나는 처리 속도를 개선하고 대기 경험을 더 투명하게 만드는 것입니다.

결과 품질 (Result quality)

사용자들은 단순히 텍스트가 사라지기만을 원하는 것이 아닙니다.

그들은 텍스트가 제거된 후 배경이 자연스럽게 보이기를 원합니다.

이는 텍스트가 얼굴, 움직이는 물체, 복잡한 배경 또는 세밀한 장면 위에 놓여 있을 때 특히 어렵습니다.

UX 및 신뢰 (UX and trust)

AI 도구의 경우, 사용자가 결과물을 빠르게 신뢰할 수 있어야 합니다.

이는 홈페이지, 업로드 흐름, 예시, 가격 책정, 그리고 전/후(before/after) 미리보기가 모두 중요하다는 것을 의미합니다. 사용자가 몇 초 내에 제품이 무엇을 할 수 있는지 이해하지 못한다면, 기술적으로 잘 작동하는 제품이라도 충분하지 않습니다.

기술 스택 (Tech stack)

이 프로젝트는 현대적인 웹 애플리케이션으로 구축되었습니다.

현재 스택은 다음과 같습니다:

Next.js
Tailwind CSS
Cloudflare
Vercel
AI 비디오/이미지 처리 API (AI video/image processing APIs)
사용자 행동 및 전환을 추적하기 위한 분석 도구 (Analytics tools)

또한 저는 SEO(검색 엔진 최적화)에도 세심한 주의를 기울이고 있는데, 이러한 유형의 도구는 검색 의도(search intent)에 크게 의존하기 때문입니다.

배운 점 (What I learned)

이 제품을 구축하면서 배운 몇 가지 사항입니다:

특화된 도구는 강력할 수 있습니다

하나의 고통스러운 문제를 해결하는 집중된 도구는 때때로 많은 기능을 가진 대규모 플랫폼보다 설명하기가 더 쉬울 수 있습니다.

“비디오에서 텍스트 제거”는 “AI 비디오 편집 플랫폼”보다 훨씬 명확합니다.

SEO는 제품 디자인에 영향을 미칩니다

SEO 중심의 SaaS를 구축할 때, 제품 구조는 단순히 UI에 관한 것만이 아닙니다.

경로(Routes), 랜딩 페이지, 예시, 헤딩(headings), 그리고 기능 명칭 모두가 중요합니다.

예를 들어, “remove subtitles from video(비디오에서 자막 제거)”와 “remove captions from video(비디오에서 캡션 제거)”와 같은 페이지들은 비슷해 보일 수 있지만, 이를 검색하는 사용자들의 의도(intent)는 다를 수 있습니다.

AI 품질은 제품의 일부분일 뿐입니다

AI 모델이 제대로 작동하더라도, 사용자들은 여전히 다음 요소들을 중요하게 생각합니다:

업로드 경험 (upload experience)
처리 속도 (processing speed)
미리보기 선명도 (preview clarity)
가격 책정 (pricing)
무료 체험 (free trial)
신뢰 신호 (trust signals)
전/후 예시 (before/after examples)

훌륭한 AI SaaS 제품은 모델 품질, UX, 포지셔닝(positioning), 그리고 배포(distribution)의 결합입니다.

다음 단계

저는 다음과 같은 여러 영역에서 AI Remover를 지속적으로 개선하고 있습니다:

더 나은 비디오 텍스트 제거 품질
더 빠른 처리 속도
더 나은 전/후 예시
더 명확한 가격 책정
다양한 사용 사례(use cases)를 위한 더 구체적인 랜딩 페이지
크리에이터와 마케터를 위한 더 나은 지원

이 제품은 아직 초기 단계이지만, 실제 사용자의 문제를 해결하기 위한 실용적인 AI 도구를 구축하는 것에 대해 이미 많은 것을 가르쳐 주었습니다.

관심이 있으시다면, 여기서 직접 체험해 보실 수 있습니다:

👉 https://airemover.org

또한 AI 도구를 구축하고 있는 다른 개발자 및 인디 해커(indie hackers)분들의 피드백도 언제든 환영합니다.

비디오에서 텍스트, 자막 및 워터마크를 제거하는 AI 도구 구축하기

요약

핵심 포인트

댓글