
Chunkr: PDF, PPT, Word 및 이미지를 RAG 및 LLM 파이프라인을 위한 구조화된 청크로 변환하는 오픈 소스 문서 인텔리전스
요약
Chunkr는 PDF, PPT, Word 및 이미지를 RAG와 LLM 파이프라인에 최적화된 구조화된 청크로 변환해주는 오픈 소스 문서 인텔리전스 서비스입니다. 레이아웃 분석과 OCR을 통해 HTML 및 Markdown 형식의 출력을 지원합니다.
핵심 포인트
- OCR 및 레이아웃 분석을 통한 정교한 문서 구조화
- HTML 및 Markdown 형식의 구조화된 데이터 출력 지원
- 시각-언어 모델(VLM)을 활용한 이미지 처리 가능
- Docker Compose를 통한 간편한 셀프 호스팅 지원
Chunkr는 PDF, PPT, Word 문서 및 이미지를 RAG (Retrieval-Augmented Generation) 및 LLM (Large Language Model) 파이프라인에 즉시 사용할 수 있는 구조화된 청크 (chunks)로 변환하는 오픈 소스 (open-source) 문서 인텔리전스 (document intelligence) 서비스입니다.
- OCR 및 경계 상자 (bounding boxes)를 활용한 레이아웃 분석 (Layout analysis)
- 구조화된 HTML 및 Markdown 출력
- 시각-언어 모델 (Vision-language model) 처리
- 구성 가능한 LLM 제공업체를 포함하여 Docker Compose를 통해 셀프 호스팅 (Self-hosted) 가능
AI 자동 생성 콘텐츠
본 콘텐츠는 X @githubprojects (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기