본문으로 건너뛰기

© 2026 Molayo

HN요약2026. 05. 21. 02:36

Unstract: 비정형 문서를 구조화된 데이터로 변환하는 LLM 기반 API 출시

요약

Unstract는 LLM을 활용하여 PDF, 이미지, 스캔 문서와 같은 비정형 데이터를 구조화된 JSON 형식으로 변환해주는 API 기반 플랫폼입니다. 자연어 프롬프트를 통해 추출 스키마를 정의할 수 있으며, API 배포, ETL 파이프라인 구축, MCP 서버 지원 등 다양한 워크플로 통합 기능을 제공합니다.

핵심 포인트

  • 자연어 프롬프트를 사용하여 복잡한 정규식 없이도 문서 추출 스키마 정의 가능
  • REST API 및 ETL 파이프라인을 통한 데이터 웨어하우스 자동 로드 지원
  • Model Context Protocol(MCP)을 지원하여 Claude와 같은 AI 에이전트와 연동 가능
  • n8n 노드 제공으로 기존 자동화 워크플로에 손쉽게 통합 가능
  • Docker를 활용한 로컬 환경에서의 빠른 설치 및 실행 지원

Unstract란 무엇인가?

Unstract는 LLM을 사용하여 문서(PDF, 이미지, 스캔 등)에서 구조화된 JSON 데이터를 추출합니다. 자연어 프롬프트를 사용하여 원하는 추출 내용을 정의하고, API 또는 ETL 파이프라인으로 배포할 수 있습니다.

금융, 보험, 헬스케어, KYC/컴플라이언스 등 다양한 분야의 팀을 위해 구축되었습니다.

현재 상태 vs. Unstract

작업Unstract가 없을 때Unstract를 사용할 때
스키마 정의벤더별로 정규식(regex) 작성, 템플릿 구축프롬프트 한 번 작성으로 다양한 변형 처리
...

⭐ Unstract가 도움이 되었다면 이 레포지토리에 별점을 남겨주세요!

✨ 주요 기능

Prompt Studio — 자연어(natural language)로 문서 추출 스키마를 정의합니다. 문서 →

API 배포 — REST API를 통해 문서를 전송하고 JSON을 받습니다. 문서 →

ETL 파이프라인 (ETL Pipeline) — 폴더에서 문서를 가져와(Pull) 처리한 후, 데이터 웨어하우스(Warehouse)에 로드합니다. Docs →

MCP 서버 (MCP Server) — 모델 컨텍스트 프로토콜 (Model Context Protocol)을 통해 AI 에이전트 (Claude 등)에 연결합니다. Docs →

n8n 노드 (n8n Node) — 기존 자동화 워크플로 (Automation Workflows)에 바로 적용할 수 있습니다. Docs →

🚀 빠른 시작 (~5분)

시스템 요구 사항 및 사전 준비 사항

  • Linux 또는 macOS (Intel 또는 M-series)
  • Docker 및 Docker Compose
  • 최소 8 GB RAM
  • Git

로컬에서 실행하기

# 클론(Clone) 및 시작
git clone https://github.com/Zipstack/unstract.git
cd unstract
...

끝입니다!

  • 브라우저에서 http://frontend.unstract.localhost에 접속하세요.
  • 사용자 이름(Username): unstract, 비밀번호(Password): unstract로 로그인하세요.
  • 데이터 추출을 시작하세요!

📦 기타 배포 옵션

Docker Compose

# 기본 환경 설정(env config)으로 전체 Unstract 플랫폼을 가져와 실행합니다.
./run-platform.sh

...

🔐 백업 암호화 키 (Backup Encryption Key)

[!WARNING]
이 키는 어댑터 자격 증명 (Adapter Credentials)을 암호화합니다. 이 키를 분실하면 기존 어댑터에 접근할 수 없게 됩니다!

backend/.env 또는 platform-service/.env에서 ENCRYPTION_KEY 값을 복사하여 안전한 장소에 보관하세요.

🏗️ Unstract 아키텍처 (Unstract Architecture)

┌────────────────────────────────────────────────────────────┐
│                          Unstract                          │
├─────────────┬─────────────┬─────────────┬──────────────────┤
...

아키텍처 문서도 참조하세요.

📄 문서 파일 형식 (Document File Formats)

카테고리형식
문서 (Documents)PDF, DOCX, DOC, ODT, TXT, CSV, JSON
...

🔌 커넥터 및 어댑터 (Connectors & Adapters)

LLM 제공업체 (LLM Providers)

제공업체 (Provider)상태 (Status)제공업체 (Provider)상태 (Status)
OpenAIAzure OpenAI
...

벡터 데이터베이스 (Vector Databases)

제공업체 (Provider)상태 (Status)제공업체 (Provider)상태 (Status)
QdrantPinecone
...

텍스트 추출기 (Text Extractors)

제공업체 (Provider)상태 (Status)
LLMWhisperer
...

ETL 소스 및 대상 (ETL Sources & Destinations)

소스 (Sources): AWS S3, MinIO, Google Cloud Storage, Azure Blob, Google Drive, Dropbox, SFTP

대상 (Destinations): Snowflake, Amazon Redshift, Google BigQuery, PostgreSQL, MySQL, MariaDB, SQL Server, Oracle

전체 커넥터 목록 (Full Connector List)

🛠️ 개발 (Development)

기본 자격 증명 변경 (Change Default Credentials)

이 단계를 따라 기본 사용자 이름과 비밀번호를 변경하십시오.

로컬 개발 (Local Development)

# pre-commit hooks 설치
./dev-env-cli.sh -p

...

로컬 개발 가이드 (Local Development Guide)

🏢 산업별 활용 사례 (Use Cases by Industry)

금융 및 은행 (Finance & Banking) → | 보험 (Insurance) → | 헬스케어 (Healthcare) → | 소득세 (Income Tax) →

☁️ 클라우드 및 엔터프라이즈 (Cloud & Enterprise)

관리형 인프라, 고급 정확도 기능 또는 컴플라이언스 인증이 필요한 팀을 위한 솔루션입니다.

  • LLMChallenge — 이중 LLM 검증 (dual-LLM verification)
  • SinglePass & Summarized Extraction — LLM 토큰 비용 절감
  • Human-in-the-Loop — 문서 하이라이팅 기능이 포함된 검토 인터페이스
  • SSO & Enterprise RBAC — 세분화된 역할 기반 액세스 제어 (RBAC)를 위한 SAML/OIDC 통합
  • SOC 2, HIPAA, ISO 27001, GDPR 준수 — 제3자 감사를 받은 보안 인증
  • SLA가 포함된 우선 지원 (Priority Support with SLA) — 응답 시간 보장이 포함된 전담 지원 팀

<a href="https://unstract.com/schedule-a-demo/"><img src="docs/assets/book-demo-button-blue.svg" alt="데모 예약"></a>

📚 사용 사례 (Cookbooks)

🤝 기여 (Contributing)

기여를 환영합니다! 시작하는 가장 쉬운 방법:

  1. good first issue 태그가 지정된 이슈 선택하기(https://github.com/Zipstack/unstract/labels/good%20first%20issue)
  2. PR 제출하기

버그 보고 → | 기능 요청 →

👋 커뮤니티 (Community)

LLM 기반 문서 자동화 커뮤니티에 참여하세요:

📊 분석 관련 참고 사항 (A Note on Analytics)

Unstract는 최소한의 사용량 분석을 추적하기 위해 Posthog을 통합합니다. 프론트엔드의 .env 파일에서 REACT_APP_ENABLE_POSTHOG=false로 설정하여 비활성화할 수 있습니다.

📜 라이선스 (License)

Unstract는 AGPL-3.0 License에 따라 공개되었습니다.


<div align="center"> <p>Zipstack이 ❤️로 제작했습니다.</p> <p> <a href="https://unstract.com">웹사이트</a> · <a href="https://docs.unstract.com">문서화 (Documentation)</a> · <a href="https://unstract.com/pricing/">가격 책정 (Pricing)</a> </p> </div>

AI 자동 생성 콘텐츠

본 콘텐츠는 HN Claude Code Search의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0