본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 12. 04:40

詳しくはこちら

요약

웹 페이지를 스크래핑하여 LLM에 그대로 입력하면 불필요한 HTML 태그와 구조 때문에 토큰 사용량이 과도하게 늘어나 비용 효율성이 매우 떨어집니다. 같은 내용을 담고 있어도 원본 HTML을 사용할 경우 Markdown으로 변환했을 때보다 훨씬 많은 토큰이 소모됩니다. 따라서 웹 콘텐츠를 LLM에 활용하기 위해서는 반드시 마크다운(Markdown)과 같이 정제된 형태로 전처리하는 과정이 필수적입니다.

핵심 포인트

  • 웹 스크래핑 원본 HTML을 그대로 LLM 입력으로 사용하면 토큰 낭비가 심각합니다.
  • HTML 태그는 내용 자체와 무관하게 많은 토큰을 차지하여 비용 증가의 주범이 됩니다.
  • 같은 웹 페이지라도 Markdown으로 변환할 경우, 토큰 사용량을 크게 줄여 비용 효율성을 높일 수 있습니다.
  • LLM에 웹 콘텐츠를 입력하기 전에는 반드시 HTML을 마크다운과 같은 정제된 형식으로 전처리해야 합니다.

웹을 스크래핑해서 LLM에 바로 넘기면, 예산의 80%를 쓰레기통에 버리는 꼴이야.

문제는: HTML.
일반적인 웹페이지가 HTML 원본으로 보내면 10,000 토큰이 돼.

같은 페이지가 깨끗한 Markdown으로: 2,000 토큰.

입력 토큰 100만 개당 USD 3라면, 1,000페이지당: HTML → USD 30, Markdown → USD 6

AI 자동 생성 콘텐츠

본 콘텐츠는 X @so_ainsight (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0