본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 15. 14:19

Octoparse MCP를 사용하여 AI 저널리스트 탐색 엔진을 구축한 방법

요약

Octoparse MCP를 활용하여 실시간으로 구조화된 저널리스트 데이터를 추출하고, 이를 Claude와 연동해 뉴스 가치를 평가하는 AI 탐색 엔진 구축 사례를 소개합니다. 기존의 고비용 PR 도구나 수동 조사 방식의 한계를 극복하고 의도 기반의 실시간 도구 호출(tool call) 방식을 제안합니다.

핵심 포인트

  • Octoparse MCP를 실시간 구조화 지능 에이전트로 활용
  • 의도 기반 파라미터를 통한 실시간 저널리스트 프로필 추출
  • Claude를 이용한 뉴스 가치 스코어링 및 개인화된 아웃리치 생성
  • 기존 PR 도구 대비 비용 효율성 및 데이터 최신성 확보

대부분의 사람들은 Octoparse MCP를 자신의 AI 어시스턴트에 연결하여 제품 목록을 추출하거나 가격 정보를 테이블로 가져오는 데 사용합니다.

그것도 괜찮습니다. 하지만 저는 다르게 사용하고 싶었습니다.

저는 Octoparse MCP가 실시간 구조화 지능 에이전트 (live structured intelligence agent) 역할을 하기를 원했습니다. 즉, 사용자가 스토리나 보도 관점 (press angle)을 제출할 때마다 제 AI 시스템이 실시간으로, 필요할 때마다 호출할 수 있는 무언가 말입니다. 배치 작업 (batch job)이나 예약된 파이프라인 (scheduled pipeline)이 아닙니다. 깨끗하고 구조화된 저널리스트 프로필을 LLM 스코어링 엔진 (scoring engine)으로 직접 반환하는 실시간 도구 호출 (live tool call)입니다.

그것이 제가 E_MediaScience로 구축한 것입니다.

문제점
Cision이나 Muck Rack과 같은 PR 인텔리전스 도구는 연간 10,000달러에서 30,000달러의 비용이 듭니다. 이는 대부분의 창업자, 스타트업, 중소기업(SMEs)이 접근하기 어렵습니다. 이들은 성장을 위해 언론 노출 (earned media coverage)이 가장 필요한 사람들입니다.

대안은 수 시간 동안 수동으로 조사하는 것입니다. 간행물의 편집진 명단 (mastheads)을 훑어보고, 저널리스트의 바이라인 (bylines)을 읽으며, 담당 분야 (beats)와 어조 (tone)를 추측하는 작업입니다. 그렇게 하더라도 구조화된 데이터가 없기 때문에 아웃리치 (outreach)는 일반적일 수밖에 없습니다.

핵심 문제는 저널리스트를 찾는 것이 아닙니다. 바로 어휘의 비대칭성 (vocabulary asymmetry)입니다.

창업자는 자신의 제품을 알고 있습니다. 하지만 TechCrunch의 저널리스트가 이를 어떻게 분류할지, 어떤 분야 에디터가 해당 카테고리를 담당하는지, 또는 어떤 매체가 최근에 인접한 주제를 다루었는지 알지 못합니다. 전통적인 검색 도구는 엄격한 검증 루프 (validation loop)를 강요합니다. 즉, 원하는 것을 찾을 때까지 쿼리를 계속 수정해야 하며, 대부분의 사용자는 그 단계에 도달하기 전에 포기합니다.

E_MediaScience가 하는 일
E_MediaScience는 멀티 테넌트 (multi-tenant) 언론 노출 운영 체제입니다. 사용자가 스토리, 출시 또는 캠페인 브리프를 제출하면 시스템은 다음과 같이 작동합니다:

  • URL이 아닌 의도 기반 파라미터 (intent-based parameters) — 즉, 주제와 지리적 타겟을 사용하여 Octoparse MCP를 호출합니다.
  • Octoparse는 600개 이상의 라이브러리에서 적절한 저널리스트 탐색 템플릿을 선택하고 지리적 라우팅 추출 (geo-routed extraction)을 실행합니다.
  • 이름, 매체, 담당 분야 (beat), 기사 이력, 어조 마커 (tone markers), 연락처 데이터 등 깨끗하고 구조화된 저널리스트 프로필을 반환합니다.
  • 해당 페이로드 (payload)를 Claude에 직접 전달하여 AI 뉴스 가치 스코어링 (newsworthiness scoring) 및 저널리스트 매칭을 수행합니다.

각 저널리스트의 실제 최근 작업물을 참조하여 개인화된 아웃리치 (outreach) 생성

답장, 오픈율, 캠페인 성공률 (strike rate) 추적

전체 프로세스는 제출부터 매칭된 저널리스트 목록 생성까지 60초 미만이 소요됩니다.

Octoparse MCP가 모든 것을 바꾸는 이유
MCP 이전의 선택지는 다음과 같았습니다:

  • 출판사별로 맞춤형 스크래퍼 (scraper)를 구축 및 유지 관리 (취약하고, 비용이 많이 들며, 끊임없이 고장 남)

  • 정적인 저널리스트 데이터베이스 사용 (오래된 정보, 높은 비용, 실시간 전문 분야 (beat) 추적 불가)

  • LLM에게 저널리스트를 찾도록 요청 (환각 (hallucination)된 프로필, 허구의 연락처 정보)

Octoparse MCP는 단 한 번의 도구 호출 (tool call)로 이 세 가지 문제를 모두 해결합니다.

텍스트
사용자 제출: "라이브 셀러를 위한 AI 비디오 클리핑 도구를 출시했습니다"

EMS가 Octoparse MCP 호출:
→ 템플릿: journalist-discovery-tech-ecommerce
→ 파라미터 (Parameters): { topic: "AI 비디오 도구, 라이브 커머스, 크리에이터 이코노미", regions: ["UK", "US"] }

Octoparse 반환:
→ 12개의 저널리스트 프로필, 구조화된 JSON
→ 전문 분야 (Beat): "커머스 기술, 라이브 쇼핑, 크리에이터 도구"
→ 최근 기사, 매체, 연락처 데이터 — 모두 파싱 (parsing) 없이 깔끔하게 제공

Claude 점수 산정:
→ 뉴스 가치 (Newsworthiness): 74/100
→ 최적의 매칭: [The Information의 저널리스트, 전문 분야: AI/크리에이터 이코노미]
→ 개인화된 피치 (pitch): 저널리스트의 최근 기사 3개를 참조

HTML도, CSS 셀렉터 (selector)도, 취약한 추출 로직도 필요 없습니다. 구조화된 페이로드 (payload)가 LLM으로 직접 전달됩니다.

HungQueryResolver — V1.1 혁신
E_MediaScience에서 기술적으로 가장 참신한 부분은 HungQueryResolver입니다. 이는 쿼리 (query)가 실패했을 때 Octoparse MCP가 수행할 수 있는 기능에 맞춰 특별히 구축되었습니다.

문제점: 클라이언트는 PR 타겟을 저널리스트 분류 체계 (taxonomy)와 깔끔하게 매핑되지 않는 자연어로 설명합니다. "내가 만드는 멋진 기술에 대해 쓰는 사람들을 찾아줘"는 실제로 발생하는 쿼리입니다. 전통적인 시스템은 사용자가 포기할 때까지 명확화 루프 (clarification loops)를 강요합니다.

HungQueryResolver는 '3단계 에스컬레이션 (Three-Strike Escalation)' 아키텍처를 사용합니다:

1단계 — 직접 매칭 (Direct Match)
원시 쿼리 (raw query)와 함께 Octoparse MCP를 호출합니다. 신뢰도가 높은 매칭 결과가 즉시 반환됩니다.

2단계 — 드리프트 검증 (Drift Validation)
신뢰도가 임계값 미만으로 떨어지면, 사용자에게 명확한 설명을 요청하는 프롬프트가 한 번 표시됩니다. 시스템은 새로운 쿼리가 실제로 새로운 정보를 추가하는지, 아니면 단순히 동일한 의도를 재표현하는 것인지를 측정합니다.

3단계 — 비동기 에스컬레이션 (Async Escalation)
사용자가 서로 다른 단어로 동일한 개념을 맴돌고 있다면, 시스템은 질문을 중단합니다. 백그라운드 워커(background worker)가 확장된 용어, 인접 산업 분류, 그리고 대안적인 저널리스트 분류 체계(taxonomies)를 사용하여 확장된 Octoparse MCP 호출을 실행하며, 이 과정은 UI가 대기하는 동안 조용히 진행됩니다.

막다른 길에 다다르는 대신, 사용자는 각 결과가 왜 노출되었는지 설명하는 투명한 품질 등급과 함께 점수가 매겨진 대안 매칭 세트를 받게 됩니다.

이를 통해 검색 실패를 컨설팅 자산으로 전환합니다.

멀티 툴 MCP 스택 (The Multi-Tool MCP Stack)
E_MediaScience는 Claude Sonnet 및 Opus를 사용하여 Cursor IDE에서 구축되었습니다. 전체 MCP 스택은 다음과 같습니다:

  • Octoparse MCP — 구조화된 저널리스트 추출 (주요 데이터 소스)
  • Supabase MCP — 스키마 관리 (Schema management), RLS 정책, Edge Function 배포
  • GitHub MCP — GlafyCo 조직(org) 전반의 자동 커밋 (Automated commits)
  • GlobalProxyManager — 100개 이상의 지리적 IP를 통한 다중 지역 저널리스트 탐색을 위한 커스텀 지오 라우팅 (geo-routing) 레이어

Octoparse (추출) + Claude (추론) + Supabase (지속성)의 결합은 모든 저널리스트 매칭이 실제 라이브 웹 데이터에 근거하는 폐쇄 루프 지능형 시스템 (closed-loop intelligence system)을 생성합니다.

운영 철학 — 저장소가 아닌 파이프라인 (Production Philosophy — Pipeline Not Repository)
공유할 만한 가치가 있는 한 가지 설계 결정은, Octoparse MCP를 데이터 웨어하우스 (data warehouse)로 절대 사용하지 않는다는 점입니다.

모든 추출 데이터는 즉시 점수가 매겨지고, 매칭되며, 실행됩니다. 데이터는 엄격한 TTL (Time To Live) 정책을 따릅니다:

  • 1~30일 차: 핫 스토리지 (Hot storage) — 전체 액세스, 편집, 다운로드 가능
  • 31~60일 차: 콜드 스토리지 (Cold storage) — 읽기 전용, 원시 소스 제거됨
  • 61일 차: 영구 삭제 (Hard delete)

이를 통해 인프라를 가볍게 유지하고 제품 포지셔닝을 강화합니다. 즉, E_MediaScience는 데이터 저장소가 아니라 프로세싱 엔진 (processing engine)입니다. 사용자는 데이터를 수집(ingest), 점수 산정(score), 피칭(pitch)한 후 정리(clear the decks)합니다.

가격 모델 (Pricing Model)
E_MediaScience는 Core + Engines 모듈형 가격 아키텍처를 사용합니다:

Core Platform — 월 $69 (대시보드, 2개 시트, 캠페인 관리)

Signal Engine bolt-on (EMS) — 월 $29부터

Production Engine bolt-on (Clipositing 비디오 엔진) — 월 $29부터

Agency tiers — HighLevel CRM 연동 포함 월 $799부터

크레딧 없음. 분당 과금 없음. "크레딧 인질극" 없음. 사용 시간(usage clock)이 아닌 티어(tier)에 따라 확장되는 고정 세션 기반 가격 책정 방식을 따릅니다.

Repo
모든 것이 공개되어 있으며 커밋되었습니다:

GitHub: github.com/GlafyCo/E_MediaScience

아키텍처 문서, 스프린트 계획, 그리고 HungQueryResolver 사양은 모두 docs/strategy/에 있습니다. 멀티테넌트(multi-tenant) 코어, AI 스코어링 엔진(AI scoring engine), 그리고 Supabase 마이그레이션 파일이 모두 그곳에 있습니다.

Octoparse MCP Challenge 2026을 위해 Octoparse MCP + Cursor + Claude로 구축되었습니다.

Ian Taylor — GlafyCo 설립자 | 영국 웨일스
E_MediaScience, Clipositing, 그리고 GlafyCo AI 플랫폼 스택을 구축 중 | X: @ianbuildsagents

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0