본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 22. 08:06

대화만으로 영상을 만들 수 있다 ── 지역을 소개하는 「가면 데카 이세도」를 만들고 있는 이야기

요약

Claude Code와 Gemini를 활용하여 대화만으로 나레이션과 자막이 포함된 영상을 제작하는 과정을 소개합니다. 복잡한 환경 설정부터 이미지 생성, 대본 작성까지 AI가 수행하여 초보자도 쉽게 지역 소개 콘텐츠를 만들 수 있습니다.

핵심 포인트

  • Claude Code를 활용해 환경 설정 및 기술적 문제 해결 자동화
  • Gemini 유료 플랜을 이용한 효율적인 이미지 생성 워크플로우
  • 소재 조사, 대본 작성, 이미지 생성, 음성 합성의 전 과정을 AI로 구현
  • 기술적 장벽 완화로 초보자의 콘텐츠 제작 진입 문턱 감소

이 연재는 평소에는 Excel과 VBA에 관한 이야기입니다. 이번에는 성격을 바꾸어, 영상에 관한 이야기를 하겠습니다.

그렇다고 해서 특별한 일을 하고 있는 것은 아닙니다. AI에게 말을 거는 것만으로, 나레이션과 자막이 달린 영상 한 편이 완성된다. 그 기록입니다. 가이드라고 부를 수 있을 만큼 훌륭한 것은 아니므로, 어디까지나 「사무원이 이런 것을 해보았습니다」라는 기록으로서 읽어주세요.

시작은 YouTube였습니다. 「AI로 영상을 만드는」 영상을 몇 개 보고 재미있겠다고 생각했습니다.

솔직히 처음에는 어려울 것이라며 긴장하고 있었습니다. 그런데 막상 해보니 허탈할 정도로 쉬웠습니다. 환경 설정부터 막힌 부분의 해결까지, AI (Claude Code)가 거의 전부 해줍니다. 저는 「이렇게 하고 싶다」라고 말하기만 하면 됩니다. 특히 받아쓰기(Transcription)와 같이 예전에는 수작업으로 끝없이 해야 했던 공정이 정말 순식간에 끝나게 되었습니다.

기술이 올라갔다기보다는, 번거로운 절차를 AI가 대신해주기 때문에 초보자도 입구에 설 수 있게 되었다는 감각입니다.

연습 삼아 우선은 고향인 아키타(Akita) 소개를 해보기로 했습니다. 소재는 고민할 필요가 없습니다. 키리탄포, 온천, 폭포, 유적, 라면. 고향에는 의외로 모두가 모르는 좋은 것들이 많이 있습니다.

단순히 소개만 하면 심심하므로, 이야기꾼 캐릭터를 세웠습니다. **「가면 레슬러 이세도(Ise-do)」**입니다.

이 이름은 AI와 상담하는 중에 결정되었습니다. 키타아키타시(Kitaakita)에는 **「이세도타이(Ise-dotai) 유적」**이라는 조몬 시대의 유적이 있습니다. 「홋카이도·북동 토호쿠의 조몬 유적군」으로서 세계유산에도 등록된 장소입니다. 그 이름을 따서 「이세도」. 지역 소개를 하고 싶어서, 지역의 세계유산에서 이름을 가져온 것입니다.

그리고 그가 쓰고 있는 가면에도 비밀이 있습니다. 두 개의 점이 눈이고, 작은 코와 입만 있는 밋밋한 얼굴. 「왜 저런 얼굴이냐」라는 말을 자주 듣지만, 그것은 대충 그린 것이 아닙니다. 이세도타이 유적에서 출토된 토우(조몬 시대의 흙 인형)의 얼굴을 모티브로 한 가면입니다. 이름도, 얼굴도, 지역의 세계유산으로부터 얻었습니다. ── 여기까지 결정하고 나서야 비로소 「이 캐릭터로 지역을 소개한다」라는 중심이 잡혔습니다.

최근에는 그 탐정 버전인 **「가면 데카 이세도」**라는 새로운 시리즈도 시작했습니다. 사건을 수사하는 척하면서 지역 소재를 소개하는 코미디 형식입니다. 얼마 전에는 「여름인데 키리탄포 사건」과 「바다도 수영장도 아닌데 흠뻑 젖은 사건」을 소재로 삼았습니다.

여름인데 키리탄포 사건

바다도 수영장도 아닌데 흠뻑 젖은 사건

재생 수는 솔직히 아직 작습니다. 일반 노출이 300~500회, 늘어나도 1000회 조금, 가장 많이 본 것이 3000회 정도입니다. 게다가 이것은 「노출된 횟수」이며, 실제로 끝까지 시청한 수는 훨씬 적을 것입니다. 그래도 막 시작한 것치고는 나쁘지 않은 반응이라고 생각합니다.

만드는 방법은 허탈할 정도로 단순합니다. 제가 AI에게 소재를 전달하면 나머지는 흘러갑니다.

  • AI가 소재를 조사한다
  • **대본 (나레이션 원고)**을 쓴다
  • 이미지를 생성한다
  • 음성을 합성한다
  • **영상으로 빌드 (Build)**한다

이미지는 Gemini를 브라우저를 통해 실행하여 생성하고 있습니다. API를 사용하는 방법도 있지만, API는 금방 한도에 도달하고 과금도 발생합니다. 저는 Gemini 유료 플랜 (AI Pro)을 계약하고 있어서, 브라우저 측에서 생성하면 하루에 100장 정도는 제 용도로 거의 신경 쓰지 않고 만들 수 있습니다 (※ 이 매수는 Google이 빈번하게 변경하므로 최신 정보는 공식 사이트에서 확인 필요). 영상 한 편에 사용하는 이미지는 7~9장. 하루에 100장을 만들 수 있다면 수량 때문에 곤란할 일은 없습니다.

음성은 VOICEVOX를 사용하고 있습니다. 이것은 AI의 추천을 받아 선택했습니다. 무료이고, 목소리 캐릭터도 선택할 수 있으며, 지방 소개의 소박한 분위기에 잘 맞습니다.

BGM에서는 은근히 막혔습니다. 배포용 곡 중에는 1분을 초과하는 영상에서는 사용할 수 없는 것이 있어서, 쇼츠(Shorts)로 만들려다가 길이가 늘어나면 사용할 수 없게 됩니다. 이것은 다시 골라내는 것으로 해결했습니다. 이런 「직접 해보지 않으면 모르는 걸림돌」도 기록으로서 써둘 가치가 있다고 생각합니다.

영상 자체를 조립하는 데에는 Remotion을 사용하고 있습니다. 이것은 React로 영상을 만드는 프레임워크로, 이미지를 몇 초 동안 보여줄지, 자막을 어디에 배치할지, 배경을 천천히 줌(zoom)할지 등을 코드로 (컴포넌트로서) 관리할 수 있습니다. 자막(telop)을 편집 소프트웨어에서 하나씩 배치하는 대신, 대본으로부터 자막과 타이밍을 흘려넣어 한꺼번에 조립합니다. 마지막에는 FFmpeg로 인코딩하여 mp4로 만듭니다.

이 일련의 과정 ── 사전 조사 → 대본 → Gemini로 이미지 생성 → VOICEVOX로 음성 생성 → Remotion으로 조립 → FFmpeg로 내보내기 ── 를 하나의 스크립트로 묶어 두었기에, 소재를 정하면 거의 명령어 하나로 실행됩니다. 제가 하는 일은 소재를 선택하고, 나온 결과물에 대해 "아니야"라고 말하는 것뿐입니다.

여기서부터가 이 기사에서 가장 쓰고 싶은 내용입니다.

"대화만으로 할 수 있다"는 사실입니다. 다만, 아무것도 주지 않고 통째로 맡겨버리면, AI는 아무렇지도 않게 그럴싸한 오답을 내놓습니다.

어제 공개한, 츠즈코(綴子)의 오오다이코(大太鼓, 큰 북)를 소재로 삼았을 때의 일입니다. 오오다이코는 지역의 실제 축제 도구이며 독특한 형태를 가지고 있습니다. 그런데 AI에게 맡기면, 그럴듯해 보이지만 실제와는 다른 북을 자신만만하게 그려냅니다. 몸통의 문양이 다르거나, 메는 방식의 구조가 가공의 것이거나, 연주자의 의상도 별개의 것이었습니다. 제가 "아니야"라고 말할 때마다 수정하게 했지만, 좀처럼 맞지 않았습니다. 결국 5번 정도 다시 그리게 했습니다.

흐름이 바뀐 것은 제가 실물 사진을 찾아 전달한 후부터였습니다. Wikimedia 등에서 실제 오오다이코 사진을 모아 "이것을 보고 그려라"라고 건네주었습니다. 그러자 비로소 초록색 밧줄을 감은 몸통도, 테두리의 금색 못(鋲)도, 옆으로 눕혀진 대차(台車)도 올바르게 그릴 수 있게 되었습니다. 그렇게 완성된 것이 이 영상입니다.

츠즈코의 오오다이코는 세계 제일이 아닌 게 아닐까 사건

이것은 이 연재의 Excel 편에서 여러 번 써왔던 내용과 완전히 똑같았습니다.

AI는 실물을 건네주기 전까지 유창하게 틀린다.

코드를 수정할 때도 "코드로서 올바른가"가 아니라 "실제 시트와 일치하는가"를 확인하게 하면, AI는 마치 다른 사람처럼 정확해졌습니다. 영상도 마찬가지입니다. 텍스트만으로 그리게 하면 일반론적인 오류를 범합니다. 진짜 사진을 건네주면 갑자기 정답을 맞힙니다. 도구는 달라도 효과적인 스위치는 같았습니다.

틀리는 것은 그림뿐만이 아닙니다. **사실(fact)**도 마찬가지입니다. 그리고 그 사실을 채워나가는 과정이야말로 "대화만으로 만든다"의 핵심이었습니다.

추후 공개 예정인 "츠즈코 라멘 가도"라는 소재를 다루었습니다. "아무도 모르는 수수께끼의 가도"라는 약간의 꾸며낸 이야기를 입구로 삼은 것입니다. 그 배경을 다지기 위해 AI와 함께 츠즈코를 통과했던 실제 옛 가도 ── **우슈 가도(羽州街道)**를 조사해 나갔습니다.

예를 들어, 가도를 따라 남아있는 **이치리즈카(一里塚, 에도 시대의 거리 표지석)**와 지금의 국도 7호선 사이의 위치 관계를 물었을 때의 일입니다. AI는 처음에 "이치리즈카는 라멘 가게 바로 옆에 있습니다"라고 그럴듯하게 대답했습니다. 이것은 틀렸습니다. 저는 츠즈코 출신이라 이치리즈카가 초등학교 뒷산 산길에 있다는 것을 알고 있습니다. 국도변 라멘 가게 옆이 아닙니다.

"아니야. 그것을 확인했어?"라고 되묻자, AI는 다시 조사했습니다. 지도의 좌표를 찾아 거리를 측정하고는 다음과 같이 정정해 왔습니다 ── "이치리즈카는 국도 7호선의 북쪽, 약 250미터 지점에 있습니다. 옛 가도는 산 쪽이고, 지금의 국도는 강을 따라 흐르는 별개의 경로입니다". 처음에 언급한 '옆의 라멘 가게'는 실제로는 600미터나 떨어져 있었습니다. 이쪽이 지역 지식으로 압박하고, AI가 실제로 다시 조사하여 마침내 사실에 도달한 것입니다.

여기서도 효과적인 스위치는 같았습니다. AI의 "그럴듯한 첫 마디"를 그대로 믿지 않고, "그것을 확인했는가 / 실물을 보았는가"라고 한 번 의심하는 것. 그러면 AI는 추측에서 조사로 전환하여 현실에 기반한 답을 내놓습니다. "대화만으로 만들 수 있다"의 '대화'는 이러한 압박과 사실 확인(裏取り)의 왕복으로 이루어져 있습니다. 제가 제시하는 소재와 지역 주민으로서의 "그건 아니야"가 AI의 리서치와 맞물려 조금씩 사실이 굳어갑니다. ── 이 부분이 가장 재미있는 공정일지도 모릅니다.

또 하나, 캐릭터의 외형을 매번 통일하는 것에도 고생하고 있습니다.

이세도는 매번 같은 얼굴, 같은 모습으로 등장하기를 바랍니다. 그래서 스타일시트 (Style Sheet) (캐릭터 설정화)를 한 장 만들어, 이미지 생성 시마다 참고용으로 전달하고 있습니다. 이것이 있으면 상당히 안정됩니다. ── 하지만, 그럼에도 무너집니다. 가면의 무늬가 바뀌거나, 의상이 달라지기도 합니다. 완벽하지는 않습니다.

결국 제가 하고 있는 일은, AI에게 「패턴(型紙)」과 「실물 자료」를 계속해서 건네주는 것에 다름없습니다. 스타일시트로 외형을 구속하고, 실제 사진으로 내용을 구속합니다. 그 부분을 인간이 붙잡고 있지 않으면, AI는 조용히 탈선해 버립니다.

딱 한 가지만 적자면, 이것입니다.

「대화만으로 만들 수 있다」는 사실입니다. 하지만 좋고 나쁨을 결정하는 것은, 결국 디렉션 (Direction)입니다.

AI는 매우 우수한 제작 스태프입니다. 사전 조사도, 대본도, 그림도, 목소리도, 편집도, 말을 거는 것만으로 해냅니다. 하지만, 내버려 두면 무너지고, 틀립니다. 감독은 인간이 할 수밖에 없습니다. 패턴을 준비하고, 실물을 보여주고, 다르다고 말하고, 다시 보여줍니다. 수수한 작업이지만, 그 점이 재미있는 부분이기도 합니다.

그리고 고백하자면 ── 이 기사 자체도 AI와 대화하며 만들고 있습니다. 영상도 대화로, 기사도 대화로. 제가 하고 있는 것은 소재를 고르고, 다르다고 말하고, 실물을 건네주는 것. 그 정도입니다. 그런데도 충분히 즐겁습니다.

20년 동안 Excel 매크로와 격투해 온 사무원이, 지금은 AI에게 말을 걸어 지역을 소개하는 영상을 만들고 있습니다.

카메라 기술도, 편집 소프트웨어 지식도, 성우 인맥도, 저는 아무것도 가지고 있지 않습니다. 그럼에도 「츠즈코의 큰 북을 소개하고 싶다」고 말을 거는 것만으로, 나레이션이 포함된 영상 한 편이 완성됩니다. 게다가 그 주인공은, 지역의 세계유산으로부터 이름과 얼굴을 부여받은 캐릭터입니다. ── 아주 조금 전까지만 해도 절대 불가능했던 일입니다.

물론 AI는 내버려 두면 무너지고, 틀립니다. 그래서 저는 패턴을 건네고, 실물을 보여주고, 「다르다」고 계속 말합니다. 수수한 고삐 조절입니다. 하지만 그 수수한 작업의 끝에서, 나의 고향이, 만난 적도 없는 누군가의 화면에 제대로 비춰집니다.

조회수는 대단하지 않습니다. 세계 최초도 아닙니다. 그래도, 그것으로 충분합니다. 지방의 사무원이 말을 거는 것만으로 자신의 마을을 세계를 향해 소개할 수 있다. 그 입구에 서 있을 수 있다는 것만으로도, 저에게는 이미 충분히 재미있는 시대입니다.

본문에서 언급한 3편입니다. 괜찮으시다면 봐 주세요.

여름인데 키리탄포 사건

바다도 수영장도 아닌데 흠뻑 젖은 사건

츠즈코의 큰 북은 세계 제일이 아닌 게 아닐까 사건

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0