joeseesun/qiaomu-anything-to-notebooklm
요약
이 도구는 자연어를 사용하여 어떤 콘텐츠든 원하는 형식으로 변환하고, 다중 소스에서 콘텐츠를 자동으로 수집하는 기능을 제공합니다. 특히 NYT, WSJ 등 300개 이상의 유료 뉴스 사이트의 Paywall을 Googlebot UA 및 다양한 우회 기술을 통해 자동 감지하고 전문(Full text)을 확보하는 것이 핵심입니다. 획득한 콘텐츠는 NotebookLM에 업로드되어 팟캐스트, 마인드맵, PPT, Quiz 등 사용자가 지정한 목표 형식으로 AI가 자동으로 생성할 수 있습니다.
핵심 포인트
- 자연어 명령만으로 다양한 형태(팟캐스트, PPT, 마인드맵 등)의 콘텐츠로 변환 가능합니다.
- Googlebot UA 및 여러 우회 기술을 활용하여 300개 이상의 유료 뉴스 사이트 Paywall을 자동 감지하고 전문을 확보합니다.
- WeChat, Xiaoyuzhou, X/Twitter 등 다양한 플랫폼의 특성을 자동으로 인식하고 스크래핑할 수 있습니다.
- 획득(Scraping)부터 변환 및 생성(Generation)까지 전 과정을 자동화하여 사용자에게 최종 결과물을 제공합니다.
Claude Code Skill 하나로, 자연어를 사용하여 어떤 내용이든 어떤 형식으로든 변환할 수 있습니다.
당신: 이 WeChat 기사를 팟캐스트로 만들어줘
AI: ✅ 8분 분량의 팟캐스트가 생성되었습니다 → podcast.mp3
당신: 이 유료 기사를 마인드맵으로 만들어줘
...
핵심 능력: 다중 소스 콘텐츠 획득 (유료 벽(Paywall) 우회 포함) → Google NotebookLM 업로드 → AI가 목표 형식으로 생성
|
|
핵심 특성: 300개 이상의 유료 뉴스 사이트의 유료 벽(Paywall)을 자동으로 감지하고 우회합니다.
Level 1: 프록시 서비스 (r.jina.ai / defuddle.md)
↓ 실패 시
Level 2: 사이트 전용 Bot UA (Googlebot ~50개 사이트 / Bingbot ~4개 사이트)
...
| 카테고리 | 사이트 |
|---|---|
| 🇺🇸 미국 미디어 | NYT, WSJ, Bloomberg, Washington Post, The Information, Forbes, WIRED, The New Yorker, The Atlantic, USA Today, Boston Globe, LA Times, Chicago Tribune, Seattle Times, MIT Tech Review, Foreign Affairs |
| ... |
| 기술 | 원리 | 커버리지 |
|---|---|---|
| Googlebot UA + X-Forwarded-For | 검색 엔진 크롤러 화이트리스트를 통해 직접 전문(Full text) 획득 | ~50개 사이트 |
| Bingbot UA | 위와 동일, 일부 사이트는 Bing에 더 우호적임 | ~4개 사이트 |
| Cookie 삭제 + Referer 위장 | 계측용 쿠키를 삭제하고 Google/Facebook/Twitter에서 온 것처럼 위장 | 계측형 유료 벽 |
| AMP 페이지 | AMP 버전의 유료 벽 구현은 비교적 약함 | ~10개 사이트 |
| JSON-LD 추출 | HTML 내 임베디드된 구조화된 데이터(Structured Data)에서 articleBody 추출 | 범용 |
| archive.today | 웹 아카이브에서 저장된 콘텐츠를 가져옴 | 최후의 수단 |
| 출력 형식 | 용도 | 트리거 단어 예시 |
|---|---|---|
| 🎙️ 팟캐스트 | 출퇴근 길 청취 | "팟캐스트 생성", "오디오로 만들기" |
| 📊 PPT | 팀 공유 | "PPT로 만들기", "슬라이드 생성" |
| 🗺️ 마인드맵 | 구조 파악 | "마인드맵 그려줘", "브레인 맵 생성" |
| 📝 Quiz | 자가 테스트 | "Quiz 생성", "문제 내줘" |
| 🎬 비디오 | 시각화 | "비디오 만들어줘" |
| 📄 보고서 | 심층 분석 | "보고서 생성", "요약 작성" |
| 📈 인포그래픽 | 데이터 시각화 | "인포그래픽 만들어줘" |
| 📋 플래시카드 | 기억 강화 | "플래시카드로 만들기" |
- ✅ Python 3.9+
- ✅ Git (macOS/Linux 기본 제공)
이 두 가지만 있으면 됩니다! 다른 의존성(Dependencies)은 한 번에 자동으로 설치됩니다.
# 1. Claude skills 디렉토리로 클론
cd ~/.claude/skills/
git clone https://github.com/joeseesun/qiaomu-anything-to-notebooklm
...
# NotebookLM 인증 (단 한 번만 수행)
notebooklm login
notebooklm list # 인증 성공 확인
...
小宇宙(Xiaoyuzhou)/喜马拉雅(Ximalaya)/Bilibili 전사(Transcription) 기능을 사용하려면 Get笔记 API를 설정하세요:
export GETNOTE_API_KEY="your_api_key"
export GETNOTE_CLIENT_ID="your_client_id"
당신: 이 The Information 기사를 팟캐스트로 만들어줘 https://www.theinformation.com/articles/...
AI 자동 실행:
✓ 유료 벽 감지 → Googlebot UA로 우회
...
당신: 이 小宇宙 팟캐스트를 PPT로 만들어줘 https://xiaoyuzhoufm.com/episode/...
AI 자동 실행:
✓ Get笔记 API로 오디오 전사 (2-5분)
...
당신: 이 책을 심층 분석해줘 /Users/joe/Books/sapiens.epub
AI 자동 실행:
✓ EPUB 전문 추출
...
당신: 이 트위터 스레드를 마인드맵으로 만들어줘 https://x.com/user/status/123...
AI 자동 실행:
✓ 프록시 캐스케이드(Cascade)를 통해 트윗 내용(전체 스레드 포함) 획득
...
사용자: 이 위챗(WeChat) 기사를 심층 분석하여 페이슈(Feishu)에 작성해줘 https://mp.weixin.qq.com/s/abc123
AI 자동 실행:
✓ MCP 브라우저 시뮬레이션을 통해 위챗 기사 스크래핑(Scraping)
...
입력 유형을 자동으로 판단하며, 수동 지정이 필요 없습니다.
https://mp.weixin.qq.com/s/xxx → 위챗 공식 계정 (WeChat Official Account)
https://xiaoyuzhoufm.com/episode/xxx → 샤오위저우(Xiaoyuzhou) 팟캐스트
https://x.com/user/status/xxx → X/Twitter
...
수동 처리 없이 자동으로 감지하고 우회합니다.
유료 벽(Paywall) 감지 → 최적의 전략 선택 → 전체 내용 획득
︿________전 과정 자동화________︿
획득부터 생성까지 한 번에 이루어집니다.
입력 → 획득 → 변환 → 업로드 → 생성 → 다운로드
︿___________전 과정 자동화___________︿
다양한 혼합 콘텐츠 소스를 지원합니다.
유료 기사 + YouTube 영상 + EPUB + 팟캐스트 → 종합 보고서
┌──────────────────────────────────────────┐
│ 사용자 자연어 입력 │
│ "이 유료 기사를 팟캐스트로 만들어줘 https://..." │
...
qiaomu-anything-to-notebooklm/
├── SKILL.md # Skill 정의 파일
├── README.md # 본 파일
...
python main.py https://example.com/article --deep-analysis
# 12개의 질문 자동 생성 (3단계 점진적 방식: 개요 → 심층 탐구 → 종합 반추), 단계별 질문 후 구조화된 JSON 출력
3단계 점진적 전략:
| 단계 | 질문 수 | 목적 | 예시 |
|---|---|---|---|
| 1단계·개요 및 프레임워크 | 4 | 전체적인 인지 구축 | 주제 요약, 구조 나열, 핵심 논점 추출, 파괴적인 내용 발굴 |
| ... | ... | ... | ... |
NotebookLM은 동일한 세션 내에서 문맥(Context)을 유지하므로, 후속 단계의 질문은 이전 단계의 답변으로부터 자동으로 이득을 얻어 진정한 "점진적" 심층 분석을 형성합니다.
python main.py ./book.epub --deep-analysis --to-feishu
# 심층 분석 후 자동으로 페이슈(Feishu) 문서 생성
이 기사들을 모두 팟캐스트로 만들어줘:
1. https://mp.weixin.qq.com/s/abc123
2. https://www.wsj.com/articles/...
...
python ~/.claude/skills/qiaomu-anything-to-notebooklm/wexin-read-mcp/src/server.py
cd ~/.claude/skills/qiaomu-anything-to-notebooklm/wexin-read-mcp
pip install -r requirements.txt
...
notebooklm login # 재로그인
notebooklm list # 검증
일부 강력한 유료 벽(Paywall) 사이트(예: The Information)는 서버 측에서 콘텐츠를 전송하지 않으므로 archive.today 아카이브가 필요합니다. 스크립트가 이를 자동으로 감지하고 안내합니다:
⚠️ archive.ph needs human verification.
브라우저를 자동으로 열었습니다. 인증을 완료한 후 다시 시도해 주세요.
./check_env.py # 13가지 항목 전면 점검
./install.sh # 재설치
Q: 어떤 언어를 지원하나요?
A: NotebookLM은 다국어를 지원하며, 중국어와 영어가 가장 효과적입니다.
Q: 팟캐스트 목소리는 누구인가요?
A: Google AI 음성 합성(TTS)입니다. 영어는 두 명의 AI 진행자가 대화하는 방식이며, 중국어는 1인 낭독 방식입니다.
Q: 유료 벽(Paywall) 우회는 합법인가요?
A: 본 도구는 개인적인 학습 및 연구 용도로만 사용됩니다. 기술적 원리는 검색 엔진 화이트리스트(Googlebot/Bingbot)에 기반하며, 어떠한 암호화도 해킹하지 않습니다. 양질의 뉴스 미디어를 지원하기 위해 구독 구매를 권장합니다.
Q: 콘텐츠 길이 제한은 어떻게 되나요?
A:
- 최소: 약 500자
- 최대: 약 50만 자
- 권장: 1,000~10,000자가 가장 효과적입니다.
Q: 왜 MCP가 필요한가요?
A: 위챗 공식 계정은 안티 크롤링(Anti-crawling) 기능이 있어, MCP가 Playwright 브라우저 시뮬레이션을 통해 이를 우회합니다. 다른 콘텐츠 소스(웹페이지, YouTube, PDF)는 MCP가 필요하지 않습니다.
Q: 팟캐스트 전사(Transcription)는 어떤 플랫폼을 지원하나요?
A: Get笔记 API를 통해 샤오위저우(Xiaoyuzhou), 시말라야(Ximalaya), Bilibili 영상을 지원합니다. YouTube는 NotebookLM이 직접 처리합니다.
- Google NotebookLM - AI 콘텐츠 생성 (AI Content Generation)
- Microsoft markitdown - 파일 변환 (File Conversion)
- Bypass Paywalls Clean - 유료 결제벽 (Paywalls) 우회 전략 참고
- wexin-read-mcp - WeChat (微信) 크롤링
- notebooklm-py - NotebookLM CLI
MIT License - 개인 학습 및 연구 목적으로만 사용 가능
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기