X요약2026. 06. 19. 23:43

AI 영상 일본 롱폼 자동화 구조 (실제 사용 방법)

요약

AI를 활용하여 일본어 롱폼 영상을 자동으로 제작하는 단계별 워크플로우를 소개합니다. 기획부터 대본 생성, 이미지 프롬프트 작성, TTS 합성, 영상 싱크까지의 전 과정을 체계적인 구조로 설계하는 방법을 다룹니다.

AI에게 복사하여 붙여넣고 이 구조로 만들어 달라고 요청해 보세요.

전체 흐름
기획/대본 생성: 에피소드 주제 확정
인물 설정, 사건 흐름, 감정선 설계
30~40분 분량을 목표로 일본어 대본을 블록 단위로 작성...

예시: EP03_SCRIPT_BLOCKS.md

대본을 영상 컷 단위로 분할
현재 EP03은 총 180컷 구조

각 컷마다 장면 목적, 등장인물, 장소, 감정, 구도를 지정
예: EP03_SCENE_TABLE.csv

이미지 프롬프트 생성
컷마다 이미지 생성 프롬프트 작성

인물 일관성을 위해 사치코/마사토/레이코/코지 설정을 반복 삽입

금지 조건 포함: 읽히는 글자 금지, 로고/워터마크 금지, 과장된 울음/폭력 금지, 애니메이션 스타일 금지

예: EP03_IMAGE_PROMPTS_001_180.md

이미지 생성
컷 번호별로 이미지 생성

저장 구조: images_gpt/cut_001.png, images_gpt/cut_002.png, ...

현재 EP03은 cut_001.png ~ cut_150.png까지 완료

10컷 단위 QC (Quality Control)
이미지 10장마다 컨택 시트(Contact Sheet) 생성
캐릭터 일관성, 손/얼굴 이상, 글자 노출, 장면 흐름 확인

예: qc/image_batches/EP03_contact_sheet_001_010.jpg, qc/image_batches/EP03_image_qc_001_010.csv

TTS (Text-to-Speech) 생성
대본 블록별로 ElevenLabs Kaede 일본어 TTS 생성
음성 ID: ANJqFeg08DpSr5TNjViw

모델: eleven_multilingual_v2

생성 후 각 MP3 길이를 CSV로 저장하여 영상 싱크(Sync)에 사용

영상 싱크

이미지 컷과 TTS 길이를 맞춰 영상 생성
각 이미지가 해당 음성 길이에 맞게 표시됨

필요하면 컷별 줌(Zoom)/팬(Pan)/페이드(Fade) 효과 적용
최종 MP4 생성

MP4 디코딩 검증
오디오 포함 여부 확인
영상 멈춤/누락/싱크 오류 확인
최종 파일을 바탕화면에 복사

이것을 그대로 AI에게 복사하여 붙여넣고 이런 구조로 만들어 달라고 해보세요.

AI 자동 생성 콘텐츠