이건 맹점이다.
요약
웹 스크레이핑 과정에서 발생하는 불필요한 HTML 노이즈를 Markdown으로 변환하는 기법을 통해 LLM API 토큰 사용량을 획기적으로 줄일 수 있습니다. 이 방법은 웹 페이지의 구조적 데이터를 정제하여 입력 크기를 대폭 압축함으로써, GPT, Claude, Gemini 등 어떤 LLM 모델에도 적용 가능하며 막대한 비용 절감 효과를 가져옵니다.
핵심 포인트
- 웹 스크레이핑 데이터에서 발생하는 불필요한 HTML 태그(div, CSS 등)가 토큰 과금의 주범입니다.
- HTML을 Markdown으로 변환하는 과정(HTML→Markdown変換)만으로 입력 토큰 수를 80% 이상 절감할 수 있습니다 (예: 16,180토큰 → 3,150토큰).
- Playwright, html2text, 정규 표현식 등 오픈소스 도구 조합만으로 비용 최적화된 스크레이퍼를 Python 10줄 내외로 구현할 수 있습니다.
- 이 솔루션은 특정 LLM 모델에 종속되지 않고, OpenAI, Anthropic, Google 등 모든 주요 LLM API에서 범용적으로 사용 가능합니다.
이건 맹점이다.
웹 스크레이핑→LLM 연동으로 "API 비용 80% 절감"할 수 있는 무료 팁이 공개되었습니다.
・1페이지 16,180→3,150 토큰 압축
・HTML이 무거운 진짜 이유
・파이썬 10줄 구현
・월 100만 페이지 처리 시 연간 4,500만 엔 절약
・GPT/Claude/Gemini 어느 거든 쓸 수 있는 범용성
10분 만에 완전 공략 가능
そもそも「LLM 토큰 과금」とは?
LLM은 입력의 「토큰 수」로 과금됩니다. HTML에는 div나 CSS, 광고 태그 등 불필요한 노이즈가 대량으로 섞여 있습니다.
<div class="container-fluid"> 하나만으로도 6토큰을 소비합니다. 그걸 「전부」 과금되고 있습니다.
今回の手法「HTML→Markdown変換」では
・Cloudflare実測:1記事16,180→3,150トークン(80%削減)
・1,000ページのコスト:約4,700円→約940円
・月100万ページなら年間約4,500万円の節約
をゼロから作ります。
さらに強いのがここ。
実装は全部オープンソースだけで完結します。
・Playwrightでスクレイピング
・html2textでMarkdown変換
・正規表現でナビ・広告を削除
組み合わせるだけでコスト最適化済みのスクレイパーが完成します。Python10行で実装可能。
一度作れば
・OpenAI(GPT系)
・Anthropic(Claude系)
・Google(Gemini系)
全部で使えます。作り直し不要。
入力フォーマットを変えるだけなので、LLMモデルを乗り換えてもそのまま流用できます。
자세한 내용은 여기
AI 자동 생성 콘텐츠
본 콘텐츠는 X @so_ainsight (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기