X요약2026. 06. 27. 14:36

Chunkr: PDF, PPT, Word 및 이미지를 RAG 및 LLM 파이프라인을 위한 구조화된 청크로 변환하는 오픈 소스 문서 인텔리전스

요약

Chunkr는 PDF, PPT, Word 및 이미지를 RAG와 LLM 파이프라인에 최적화된 구조화된 청크로 변환해주는 오픈 소스 문서 인텔리전스 서비스입니다. 레이아웃 분석과 OCR을 통해 HTML 및 Markdown 형식의 출력을 지원합니다.

핵심 포인트

OCR 및 레이아웃 분석을 통한 정교한 문서 구조화
HTML 및 Markdown 형식의 구조화된 데이터 출력 지원
시각-언어 모델(VLM)을 활용한 이미지 처리 가능
Docker Compose를 통한 간편한 셀프 호스팅 지원

Chunkr는 PDF, PPT, Word 문서 및 이미지를 RAG (Retrieval-Augmented Generation) 및 LLM (Large Language Model) 파이프라인에 즉시 사용할 수 있는 구조화된 청크 (chunks)로 변환하는 오픈 소스 (open-source) 문서 인텔리전스 (document intelligence) 서비스입니다.

OCR 및 경계 상자 (bounding boxes)를 활용한 레이아웃 분석 (Layout analysis)
구조화된 HTML 및 Markdown 출력
시각-언어 모델 (Vision-language model) 처리
구성 가능한 LLM 제공업체를 포함하여 Docker Compose를 통해 셀프 호스팅 (Self-hosted) 가능

AI 자동 생성 콘텐츠

원문 바로가기

Chunkr: PDF, PPT, Word 및 이미지를 RAG 및 LLM 파이프라인을 위한 구조화된 청크로 변환하는 오픈 소스 문서 인텔리전스

요약

핵심 포인트

댓글