Claude Code로 YouTube 자막 13,000자를 "4인 합의" 방식으로 분석했더니, 단순 요약으로는 잡을 수 없는 관점이 나왔던
요약
단순 요약 방식의 AI 분석을 넘어, '비즈니스', '엔지니어링', '역발상', '라이프스타일' 등 다중 페르소나(4인 합의)를 부여하여 YouTube 영상 자막을 분석하는 방법을 소개합니다. 이 방식을 통해 단순 정보 나열이 아닌, 의사결정에 직접 활용 가능한 깊이 있는 관점과 통찰력을 얻을 수 있습니다. 특히 사실 기반의 정확성이 중요한 영역에서는 페르소나 사용에 주의가 필요하며, 논점 추출이나 소재 수집 목적으로는 매우 유용합니다.
핵심 포인트
- 단순 요약은 의사결정 소재로 활용하기에는 정보량이 부족하다.
- 다중 페르소나(4인 합의)를 설정하여 분석하면 단순 요약을 넘어선 깊이 있는 통찰력을 얻을 수 있다.
- 자막 취득은 외부 라이브러리(`youtube-transcript-api`)에 맡기고, Claude Code는 캐릭터 정의 파일(`CLAUDE.md`)에서 불러오도록 구조화하는 것이 효율적이다.
- 페르소나 운용은 사실 판정(계산, 법령 등)에는 부적합하며, 논점 추출이나 다각적 검토가 필요한 영역에 최적화되어야 한다.
YouTube 영상을 "대략적으로 요약해줘"라고 AI에게 던지면, 대개 깔끔하게 5가지 항목으로 정리된 답변이 돌아온다. 이는 편리하지만, 영상을 의사결정의 소재로 사용하고 싶을 때는 정보량이 부족하다.
"내가 사업을 하는 관점", "엔지니어 관점", "역발상 관점", "라이프스타일 관점" — 같은 영상이라도 보는 입장이 다르면 포착하는 포인트가 완전히 다를 것이다.
이를 단일 Claude Code 세션 내에서 4명이 분담하여 수행하게 해보았더니, 요약보다 압도적으로 깊이 있는 의사록이 나왔기에 그 제작 방법을 정리한다.
실례로서, 어떤 기업가 YouTuber의 12,993자 영상을 분석한 결과(익명화)도 마지막에 첨부한다.
YouTube URL
│
▼
...
포인트는 두 가지:
자막 취득은 외부 라이브러리에 맡긴다 (Claude에게 브라우저를 열게 하지 않는다)
4명의 캐릭터 설정은 (매번 프롬프트로 지시하지 않고) CLAUDE.md에 정적으로 정의한다
youtube-transcript-api를 사용한다.
import sys
sys.stdout.reconfigure(encoding='utf-8')
from youtube_transcript_api import YouTubeTranscriptApi
...
VIDEO_ID는 URL에서 추출한다:
https://youtu.be/r59VWUegxW4?si=...
→r59VWUegxW4
https://www.youtube.com/watch?v=r59VWUegxW4
→v= 파라미터
자막을 가져올 수 없는 영상 (자동 자막 없음·비공개)은 애초에 대상 외이므로, try/except로 담백하게 처리하면 OK다.
Windows에서 일본어 자막을 다룰 경우 sys.stdout.reconfigure(encoding='utf-8')를 넣어두지 않으면 UnicodeEncodeError: 'cp932' codec can't encode character로 인해 오류가 발생하므로 주의해야 한다 (실제로 고생했다).
Claude Code는 기동 시 CLAUDE.md를 자동으로 읽어들인다. 여기에 4명의 캐릭터를 정의해 두면, 매번 프롬프트에 "비즈니스 관점에서... 테크 관점에서..."라고 쓸 필요가 없다.
## 4인 합의 멤버
| 이름 | 관점 | 캐릭터 |
|---|---|---|
...
이렇게만 적어두고, 나머지는 일반적인 세션에서:
이 YouTube 영상을 4인 합의로 분석해줘
라고 던지면, Claude Code는 자동으로 4명이 분담하여 답변을 내놓는다.
사실, 최근의 몇몇 LLM 연구에서는 "LLM에 페르소나 (Persona)를 부여해도 사실 기반의 정확도는 올라가지 않는다"라고 보고되고 있다. 오히려 입장의 차이로 인해 결론이 정반대가 되어, 벤치마크 답변 정확도가 페르소나가 없을 때보다 저하되는 케이스조차 있다고 한다.
따라서 페르소나 운용은 주의가 필요하며, 사실 정확도가 생명인 영역 (경리·법령·계약)에서는 사용하지 않는 것이 철칙이다.
다만 "다각적 검토를 위한 소재 수집"으로서는 유효하다:
| 영역 | 페르소나 운용 |
|---|---|
| 사실 판정 (계산·법령·계약) | ❌ 페르소나 OFF 상태로 순수한 Claude에게 독립 검증을 시킨다 |
| ... |
YouTube 영상 분석은 완전히 "논점 추출" 태스크이므로, 페르소나 운용이 잘 들어맞는 용도다.
어떤 기업가 YouTuber가 "개인 개발로 하루 10만 엔 매출"을 이야기하는 영상. 요약이라면 "Expo로 스마트폰 앱을 만들어 X에서 화제가 되었다"로 끝나겠지만, 4명에게 분담시키면 다음과 같은 의사록이 된다 (일부 발췌·고유명사는 익명화):
[비즈니스 관점]
숫자가 깔끔하게 역산되어 있다. 월 20만 → 하루 6,300엔 → 1,000엔 단품 판매 × 6개 × CVR 1% = 600DL/일. 프레임워크는 타 사업에도 전용 가능하다.
[엔지니어 관점]
기술 스택 Expo + RevenueCat + PostHog + SQLite 로컬. 백엔드 없음. Windows에서 출시 가능. 즉시 트레이스(Trace) 가능하지만, Apple 심사가 병목(Bottleneck)이다.
[역발상 관점]
잠깐, 이건 생존자 편향(Survivorship Bias)이 가득하다. 본인도 "X에서 화제가 된 것은 운 요소"라고 자백하고 있다. 하루 10만 → 다음 날 이후 1만으로 감소하고 있는 시점에서 스톡 비즈니스(Stock Business)가 아니다. 저자는 구독자 10만·저서·아카데미를 보유한 복합체이기에 고객 유입의 시작점 자체가 다르다. "목표 이미지 → 뇌내 자동 역산"과 "사고 확산 시 번뜩임" (산책·독서 중)은 재현성 있는 원칙이다. 롱 게임(Long Game) 권장도 부합한다.
이 단계에 이르면, 요약이 아니라 의사결정의 소재가 됩니다. "아, 카와시마의 지적이 있었으니까 덥석 물지 말자"라거나 "마츠모토의 프레임워크만 뽑아내서 내 프로젝트(PJ)에 전용하자"와 같이 다음 행동으로 직결됩니다.
특히 카와시마의 역발상(逆張り) 파트는 단순 요약으로는 절대 나오지 않습니다. 정보 수신자로서 "이거 속고 있는 거 아냐?"를 구조적으로 끼워 넣는 장치로서 기능하고 있습니다.
실제로 한동안 돌려보면서 효과를 본 몇 가지 팁이 있었습니다.
제 경우에는 「비즈니스 / 테크 / 역발상 / 라이프스타일」의 4개 축을 사용하지만, 여기는 목적에 맞춰 변경하는 것을 추천합니다:
채용 판단을 위한 영상 리뷰 → 후보자 관점 / 기존 직원 관점 / 투자자 관점 / 컬처(Culture) 관점 -
경쟁 툴 리뷰 영상 → 기존 사용자 관점 / 신규 사용자 관점 / 영업 관점 / 보안(Security) 관점
축만 결정되면, 나머지는 CLAUDE.md를 다시 쓰는 것뿐입니다.
이 점은 강력하게 말씀드리고 싶은데, 역발상 역할을 넣지 않으면 합의 구성원 전원이 "좋아요"로 끝나버리는 현상이 빈번하게 발생합니다.
LLM은 기본적으로 동의·찬사 편향(Agreement/Praise Bias)이 있기 때문에, 명시적으로 "이거 생존자 편향(Survivorship Bias) 아닌가?", "재현성이 없는 것 아닌가?"를 담당하는 캐릭터를 배치하지 않으면 4명이 있는 의미가 없어집니다.
자동 자막조차 없는 영상 (BGM만 있는 영상, 무음 영상, 오래된 영상)은 YouTube Transcript API로 가져올 수 없습니다. 이것은 사양입니다.
그럴 경우에는 yt-dlp로 음성을 내려받아 → ffmpeg로 압축 → Whisper (Groq/OpenAI)로 텍스트화하는 루트로 전환합니다. 저는 webm 형식의 29MB 음성을 ffmpeg로 12MB mp3로 만든 뒤, Groq Whisper Large-v3 (무료 범위)에 던지는 구성으로 운용하고 있습니다. 비용은 거의 제로입니다.
- YouTube 영상은 단순 요약일 경우 의사결정의 소재로서 약하다
- 4명의 캐릭터를
CLAUDE.md에 정적으로 정의해 두면, Claude Code가 분담해 준다 - 페르소나 운용은 "다각적 검토의 소재" 목적으로 한정한다 (사실 판정에는 사용하지 않는다)
- 역발상 역할은 필수 (동의 편향 제거 장치)
- 자막을 가져올 수 없는 영상은
yt-dlp+Whisper로 텍스트화
사업 판단, 신규 아이디어의 1차 평가, 경쟁 툴 리뷰 등 "다각적으로 보고 싶지만 시간이 없는" 상황에서 효과적입니다. 프롬프트를 매번 입력하지 않아도 된다는 점이 은근히 편합니다.
무엇보다, 카와시마의 "잠깐만"이 들어가는 순간이 가장 짜릿합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기