AI Talking Avatar 파이프라인으로 인해 광고 CTR이 3.7% 하락한 이유

요약 (Quick Summary)

아바타 영상을 너무 공격적으로 일괄 생성(batch-generating)한 후 광고 CTR(클릭률)이 3.7% 하락했습니다.
병목 현상은 렌더링 속도가 아니었습니다. 출력물에서 나타나는 행동의 반복성이 문제였습니다.
대부분의 해결책은 모델 변경 대신 지루한 파이프라인 미세 조정(pipeline tweaks)으로 귀결되었습니다.

실수로 모두가 동일인처럼 느껴지는 48개의 영상을 만들었던 그 주

3개월 전, 저는 AI Talking Avatar 도구가 짧은 광고 크리에이티브의 제작 오버헤드(production overhead)를 줄여줄 것이라고 생각했습니다.

기술적으로는 그랬습니다. 하지만 운영 측면에서는 다른 종류의 혼란을 야기했습니다.

우리는 제품 테스트를 위해 매주 약 18~24개의 세로형 영상을 제작하고 있었습니다. 대부분은 지루한 SaaS 광고였고, 일부는 크리에이터 스타일의 설명 영상이었으며, 몇몇은 다섯 번째 테이크 이후에는 아무도 촬영하고 싶어 하지 않는 "카메라를 보고 말하는 창업자" 스타일의 영상이었습니다.

기존 워크플로우(workflow)는 기본적으로 다음과 같았습니다:

Markdown으로 스크립트 작성
오디오 생성(audio generation) 실행
아바타 클립 렌더링(render)
ffmpeg를 사용하여 B-roll과 합성(stitch)
세로형 변형(vertical variants) 내보내기

매우 표준적인 자동화 중심의 행동 방식이었습니다.

문제는 우리가 AI Avatar Video Generator 도구로 대폭 전환한 후에 나타났습니다. Meta 광고 지면 전반에서 CTR이 떨어지기 시작했으며, 특히 12개 이상의 크리에이티브를 일괄 생성(batches)한 영상에서 두드러졌습니다.

처음에는 후크(hooks)를 탓했습니다. 그다음에는 페이싱(pacing)을, 그다음에는 자막을 탓했습니다. 그러다 제 뇌가 곁가지 작업(side quests)을 선호하는 탓인지, 전혀 상관없는 Docker 네트워킹 문제를 디버깅(debugging)하는 데 23분을 허비하기도 했습니다.

실제 문제는 더 단순했습니다. 생성된 모든 인물이 정서적으로 동일하게 느껴지기 시작한 것입니다.

시각적으로 동일한 것이 아니었습니다. 더 나쁜 문제였습니다. 리듬(rhythm)이 동일했습니다.

똑같은 일시 정지. 똑같은 눈썹의 움직임 타이밍. 똑같은 문장의 억양(cadence).

인간은 분석 대시보드(analytics dashboards)보다 이를 더 빠르게 알아차립니다.

실패의 역공학 (Reverse Engineering the Failure)

지표를 보는 것을 멈추고 영상들을 연달아 시청하자, 문제는 명확해졌습니다.

모든 아바타는 다음과 같은 특징을 가지고 있었습니다:

유사한 호흡 간격 (breathing intervals)
동일한 문장 가속 (sentence acceleration)
지나치게 깔끔한 시선 처리 (eye contact)
대화의 흐름 변화 부재 (zero conversational drift)

마치 평행 우주에서 온 고객 지원 센터 같았습니다.

우리는 생성된 광고 14개와 부분적으로 사람이 녹음한 광고 14개를 대상으로 소규모 내부 테스트를 진행했습니다. 사람이 참여한 버전은 5초 지점 이후에도 일관되게 더 오래 주의력을 유지했습니다.

사람이 더 잘생기거나 예뻐서가 아니었습니다. 인간은 유용한 방식으로 불규칙하기 때문입니다.

아이러니하게도 렌더링 스택 (rendering stack) 자체는 안정적이었습니다. 우리는 꽤 지루한 설정을 실행하고 있었습니다:

python render.py \
  --voice en-us-2 \
  --aspect 9:16 \
...

극적인 GPU 충돌도 없었습니다. 큐 오염 (queue corruption)도 없었습니다. 재미있는 일은 아무것도 없었습니다.

실패의 원인은 효율성으로 위장된 미적 균일성 (aesthetic uniformity)이었습니다.

실제로 성능을 개선한 것들

해결책은 부끄러울 정도로 저기술적 (low-tech)이었습니다.

우리는 스크립트를 구조화된 데이터처럼 다루는 것을 멈추고, 구어 (spoken language)처럼 다루기 시작했습니다.

다음과 같은 방식 대신:

"저희 소프트웨어는 고객 온보딩 워크플로우 자동화를 도와줍니다."

우리는 다음과 같이 다시 작성했습니다:

"밤 11시에 일일이 사람들을 온보딩시키는 게 너무 지쳐서 만들었습니다."

더 지저분한 문장들이 더 좋은 성과를 냈습니다.

또한 우리는 의도적으로 불완전함을 도입했습니다:

채우기용 일시 정지 (filler pauses) 추가
자막 타이밍 단축
문장 끝부분을 약간 자름 (clipped)
카메라 크롭 (camera crop) 강도 교차 적용
낮은 에너지의 테이크와 빠른 테이크를 혼합

한 가지 기묘한 개선 사항은 스크립트 길이를 작은 무작위 간격으로 변경하는 것에서 왔습니다.

A/B 테스트를 통한 무작위성이 아닙니다. 인간적인 무작위성입니다.

import random

target_length = random.randint(92, 128)

그 작은 조정이 내보내기 (exports) 전반에 걸친 반복적인 리듬 패턴을 줄여주었습니다.

또 다른 문제는 렌더 큐 (render queue)의 동작이었습니다.

아바타 도구 중 하나가 GPU 혼잡 시간 동안 내보내기 품질을 조용히 계속 낮추고 있었습니다. 왜 어떤 영상들은 자정 이후에 렌더링된 것들만 압축되어 보이는지 깨닫는 데 이틀 밤이 걸렸습니다.

원인: 미국 피크 시간대의 동시 큐 과부하 (concurrent queue overload).

해결책: 예약된 내보내기를 UTC 기준 오전 5시로 옮기고, 동시 실행 수 (concurrency)를 수동으로 제한했습니다.

정말 화려한 엔지니어링이네요.

아바타 리얼리즘 (Avatar Realism)에 관한 기묘한 점

이제 리얼리즘 (realism)이 실제 목표는 아니라고 생각합니다.

사람들이 반응하는 것은 행동적 질감 (behavioral texture)입니다.

미세한 불완전함. 약간 지연된 반응. 심지어 어색한 일시 정지까지 말이죠.

재미있는 점은 엔지니어링 팀들이 자연스럽게 이러한 요소들을 최적화하여 제거해 버린다는 것입니다.

저 역시 타임라인 에디터 (timeline editor)에서 일관성이 유지되는 것이 더 "깔끔해" 보인다는 이유로, 전처리 스크립트 (preprocessing scripts)를 사용해 일시 정지 타이밍을 정규화하려고 시도했던 적이 있습니다.

그 와중에, 덜 다듬어진 버전들이 더 좋은 성과를 냈습니다.

한 클라이언트는 더 깔끔하게 제작된 광고 중 하나를 문자 그대로 이렇게 묘사했습니다:

"이건 마치 정중한 인질 영상 같아요."

솔직히 타당한 비판입니다.

그리고 본문과는 무관한 이야기지만, 이 디버깅 (debugging) 사이클 전체 동안 저는 말도 안 될 정도로 과다 추출된 커피를 마셨습니다. 사무실 그라인더가 고장 났는데 아무도 교체하고 싶어 하지 않았거든요. 모든 에스프레소가 탄 아몬드와 후회 같은 맛이 났습니다.

테스트한 도구 비교

우리는 몇 가지 아바타 시스템을 번갈아 가며 사용했는데, 주로 가격 모델과 내보내기 (export) 제한 사항이 계속 바뀌었기 때문입니다.

다음은 모델 품질보다 더 중요했던, 정말 지루한 비교 내용입니다.

도구	사용한 이유	짜증 나는 제한 사항
Adsmaker.ai	개발자가 아닌 팀원들을 위한 더 쉬운 템플릿 온보딩 (onboarding)	혼잡한 시간대의 렌더링 큐 (render queue) 지연
...

자막 문제는 특히 45초 이상의 스크립트에서 매우 짜증스러웠습니다.

재앙적인 수준은 아니었습니다. 다만 시청자들이 무의식적으로 알아차리는 "뭔가 이상하다"는 느낌을 줄 정도의 타이밍 드리프트 (timing drift)가 발생할 뿐이었습니다.

제가 가졌던 또 다른 비판은 아바타 에너지 보정 (energy calibration)이었습니다. 중립적인 전달 방식은 스크립트가 캐주얼할 때조차 때때로 이상할 정도로 기업적인 느낌을 주었습니다. 결국 저는 문법적으로 덜 정확한 대사를 작성함으로써 이를 보완하게 되었습니다.

역행하는 것처럼 느껴지지만, 상황이 그렇게 되었습니다.

크리에이티브 스케일링 (Scaling Creative)에 대해 아무도 언급하지 않는 부분

병목 현상 (bottleneck)은 비디오 생성 단계에서 아주 빠르게 사라졌습니다.

그것은 검토 피로 (review fatigue)로 변했습니다.

출력이 저렴해지면, 인간은 개별 에셋 (assets)에 세심한 주의를 기울이는 것을 멈춥니다. 이는 저품질의 반복이 조용히 스며들 수 있다는 점에서 위험합니다.

한 시점에는 4일 동안 117개의 크리에이티브 (creatives)를 생성하기도 했습니다.

그 후에는 그중 절반도 아무도 기억하지 못했습니다.

이는 보통 파이프라인이 기억 가능성 (memorability) 대신 처리량 (throughput)을 최적화하고 있다는 신호입니다.

도구 자체보다는 그 도구에 부여하는 제약 조건 (constraints)이 더 중요합니다.

우리는 결국 다음과 같은 수동 검토 게이트 (manual review gates)를 추가했습니다:

컨셉당 내보내기 (exports) 5회 제한
필수적인 페이싱 (pacing) 변화
배치 (batch)당 서로 다른 감정적 톤 (emotional tone)
최소 하나 이상의 의도적으로 "거친 (rough)" 버전 포함

이상하게도, 제약 조건이 자동화보다 결과물의 품질을 더 향상시켰습니다.

기술적 시사점 (Technical Takeaways)

현재 워크플로우 체크리스트:

[ ] 대화체 언어로 스크립트 생성
[ ] 내보내기 간에 페이싱 (pacing)을 약간 무작위화
[ ] 동일한 자막 타이밍 방지
...

또는 더 간단하게:

if avatar_feels_too_perfect:
    viewers_stop_trusting_it()

고지 사항: 저는 언급된 그 어떤 도구와도 관련이 없습니다.