본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 27. 14:36

Chunkr: PDF, PPT, Word 및 이미지를 RAG 및 LLM 파이프라인을 위한 구조화된 청크로 변환하는 오픈 소스 문서 인텔리전스

요약

Chunkr는 PDF, PPT, Word 및 이미지를 RAG와 LLM 파이프라인에 최적화된 구조화된 청크로 변환해주는 오픈 소스 문서 인텔리전스 서비스입니다. 레이아웃 분석과 OCR을 통해 HTML 및 Markdown 형식의 출력을 지원합니다.

핵심 포인트

  • OCR 및 레이아웃 분석을 통한 정교한 문서 구조화
  • HTML 및 Markdown 형식의 구조화된 데이터 출력 지원
  • 시각-언어 모델(VLM)을 활용한 이미지 처리 가능
  • Docker Compose를 통한 간편한 셀프 호스팅 지원

Chunkr는 PDF, PPT, Word 문서 및 이미지를 RAG (Retrieval-Augmented Generation) 및 LLM (Large Language Model) 파이프라인에 즉시 사용할 수 있는 구조화된 청크 (chunks)로 변환하는 오픈 소스 (open-source) 문서 인텔리전스 (document intelligence) 서비스입니다.

  • OCR 및 경계 상자 (bounding boxes)를 활용한 레이아웃 분석 (Layout analysis)
  • 구조화된 HTML 및 Markdown 출력
  • 시각-언어 모델 (Vision-language model) 처리
  • 구성 가능한 LLM 제공업체를 포함하여 Docker Compose를 통해 셀프 호스팅 (Self-hosted) 가능

AI 자동 생성 콘텐츠

본 콘텐츠는 X @githubprojects (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0