Dev.to헤드라인2026. 06. 25. 12:08

LLM이 웹 페이지를 가져올 때 토큰을 낭비하지 않도록 무료 도구를 만들었습니다

요약

LLM이 웹 페이지를 읽을 때 불필요한 토큰 낭비를 줄여주는 오픈 소스 도구 'Lean Reader'를 소개합니다. URL에서 본문 텍스트만 정제하여 추출하며, 절약된 토큰 수와 비용을 수치로 제공합니다.

핵심 포인트

웹 페이지의 불필요한 요소(Nav, 스크립트 등)를 제거하여 토큰 사용량 최적화
정제된 본문 텍스트와 함께 절약된 토큰 및 비용 정보 제공
npx 실행 및 MCP 서버 지원으로 AI 에이전트와 연동 가능
MIT 라이선스의 무료 오픈 소스 도구

LLM (Large Language Model)이 저를 대신해 웹을 검색하도록 하면, 페이지 전체를 가공되지 않은 상태로 가져와서 실제로 필요하지 않은 부분에 수많은 토큰을 낭비하곤 합니다. 저는 그저 중요한 부분만 가져올 수 있기를 계속 바랐습니다. 그래서 이를 위한 작은 도구를 만들었습니다.

Lean Reader는 URL을 입력받아 정제된 본문 텍스트만 반환하며, 절약된 토큰 수에 대한 수치도 함께 제공합니다. 또한 어떤 모델과 토크나이저 (Tokenizer)를 기준으로 계산했는지 알려주므로 직접 확인할 수 있습니다.

예를 들어, 한 React 문서 페이지의 경우 119,126 토큰에서 4,942 토큰으로 줄어들었습니다. 약 96%가 절감되었으며, gpt-4o 가격 기준으로 대략 $0.29를 아꼈습니다.

작동 방식은 꽤 단순합니다. 페이지를 가져온 뒤 내비게이션 (Nav), 쿠키 배너, 스크립트 (Scripts) 및 그런 종류의 쓰레기들을 버리고, 두 개의 추출기 (Extractors)를 실행하여 실제 본문을 더 많이 유지하는 쪽을 선택합니다.

완벽하지는 않습니다. 페이지를 정적으로 가져오기 때문에, JavaScript (JS) 비중이 높은 사이트나 GitHub 리포지토리 (Repos)는 내용이 빈약하게 나올 수 있습니다. 그런 경우에는 Jina나 Firecrawl처럼 실제로 페이지를 렌더링 (Render)하는 도구가 더 나을 것입니다. 그리고 솔직히 기술적으로 화려하지도 않습니다. 가져오고, 정제하고, 토큰을 계산합니다. 그게 전부입니다.

이 도구는 무료이며 오픈 소스 (MIT 라이선스)입니다. npx lean-reader로 실행할 수 있으며, MCP 서버로도 작동하므로 에이전트 (Agent)가 검색 도중에 이를 호출할 수 있습니다.

링크: lean-reader-web.vercel.app

직접 사용해 보신다면, 어떤 부분에서 제대로 작동하지 않는지 꼭 알려주시면 좋겠습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM이 웹 페이지를 가져올 때 토큰을 낭비하지 않도록 무료 도구를 만들었습니다

요약

핵심 포인트

댓글