본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 11. 19:23

이건 맹점이다.

요약

웹 스크레이핑 과정에서 발생하는 불필요한 HTML 노이즈를 Markdown으로 변환하는 기법을 통해 LLM API 토큰 사용량을 획기적으로 줄일 수 있습니다. 이 방법은 웹 페이지의 구조적 데이터를 정제하여 입력 크기를 대폭 압축함으로써, GPT, Claude, Gemini 등 어떤 LLM 모델에도 적용 가능하며 막대한 비용 절감 효과를 가져옵니다.

핵심 포인트

  • 웹 스크레이핑 데이터에서 발생하는 불필요한 HTML 태그(div, CSS 등)가 토큰 과금의 주범입니다.
  • HTML을 Markdown으로 변환하는 과정(HTML→Markdown変換)만으로 입력 토큰 수를 80% 이상 절감할 수 있습니다 (예: 16,180토큰 → 3,150토큰).
  • Playwright, html2text, 정규 표현식 등 오픈소스 도구 조합만으로 비용 최적화된 스크레이퍼를 Python 10줄 내외로 구현할 수 있습니다.
  • 이 솔루션은 특정 LLM 모델에 종속되지 않고, OpenAI, Anthropic, Google 등 모든 주요 LLM API에서 범용적으로 사용 가능합니다.

이건 맹점이다.

웹 스크레이핑→LLM 연동으로 "API 비용 80% 절감"할 수 있는 무료 팁이 공개되었습니다.

・1페이지 16,180→3,150 토큰 압축
・HTML이 무거운 진짜 이유
・파이썬 10줄 구현
・월 100만 페이지 처리 시 연간 4,500만 엔 절약
・GPT/Claude/Gemini 어느 거든 쓸 수 있는 범용성

10분 만에 완전 공략 가능

そもそも「LLM 토큰 과금」とは?

LLM은 입력의 「토큰 수」로 과금됩니다. HTML에는 div나 CSS, 광고 태그 등 불필요한 노이즈가 대량으로 섞여 있습니다.

<div class="container-fluid"> 하나만으로도 6토큰을 소비합니다. 그걸 「전부」 과금되고 있습니다.

今回の手法「HTML→Markdown変換」では
・Cloudflare実測:1記事16,180→3,150トークン(80%削減)
・1,000ページのコスト:約4,700円→約940円
・月100万ページなら年間約4,500万円の節約

をゼロから作ります。

さらに強いのがここ。

実装は全部オープンソースだけで完結します。

・Playwrightでスクレイピング
・html2textでMarkdown変換
・正規表現でナビ・広告を削除

組み合わせるだけでコスト最適化済みのスクレイパーが完成します。Python10行で実装可能。

一度作れば
・OpenAI(GPT系)
・Anthropic(Claude系)
・Google(Gemini系)

全部で使えます。作り直し不要。
入力フォーマットを変えるだけなので、LLMモデルを乗り換えてもそのまま流用できます。

자세한 내용은 여기

AI 자동 생성 콘텐츠

본 콘텐츠는 X @so_ainsight (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0