이건 맹점이다.

웹 스크레이핑→LLM 연동으로 "API 비용 80% 절감"할 수 있는 무료 팁이 공개되었습니다.

・1페이지 16,180→3,150 토큰 압축
・HTML이 무거운 진짜 이유
・파이썬 10줄 구현
・월 100만 페이지 처리 시 연간 4,500만 엔 절약
・GPT/Claude/Gemini 어느 거든 쓸 수 있는 범용성

10분 만에 완전 공략 가능

そもそも「LLM 토큰 과금」とは？

LLM은 입력의 「토큰 수」로 과금됩니다. HTML에는 div나 CSS, 광고 태그 등 불필요한 노이즈가 대량으로 섞여 있습니다.

<div class="container-fluid"> 하나만으로도 6토큰을 소비합니다. 그걸 「전부」 과금되고 있습니다.

今回の手法「HTML→Markdown変換」では
・Cloudflare実測：1記事16,180→3,150トークン（80%削減）
・1,000ページのコスト：約4,700円→約940円
・月100万ページなら年間約4,500万円の節約

をゼロから作ります。

さらに強いのがここ。

実装は全部オープンソースだけで完結します。

・Playwrightでスクレイピング
・html2textでMarkdown変換
・正規表現でナビ・広告を削除

組み合わせるだけでコスト最適化済みのスクレイパーが完成します。Python10行で実装可能。

一度作れば
・OpenAI（GPT系）
・Anthropic（Claude系）
・Google（Gemini系）

全部で使えます。作り直し不要。
入力フォーマットを変えるだけなので、LLMモデルを乗り換えてもそのまま流用できます。

자세한 내용은 여기

Insights