Hyper-Extract
요약
Hyper-Extract는 비구조화된 텍스트를 지식 그래프, 하이퍼그래프 등 구조화된 지식으로 변환하는 LLM 기반 CLI 프레임워크입니다. Pydantic 모델부터 복잡한 시공간 그래프까지 다양한 형식의 지식 추상화를 지원하며, 로컬 vLLM 배포를 통해 데이터 보안을 유지할 수 있습니다.
핵심 포인트
- 단일 명령으로 문서를 지식 그래프 및 하이퍼그래프로 변환
- GraphRAG, LightRAG 등 10개 이상의 추출 엔진 탑재
- 금융, 법률 등 80개 이상의 도메인별 YAML 템플릿 제공
- vLLM을 활용한 온프레미스 로컬 배포 및 데이터 보안 지원
스마트 지식 추출 CLI (Smart Knowledge Extraction CLI)
단 한 번의 명령으로 문서를 구조화된 지식으로 변환하세요.
"읽는 것을 멈추고, 이해를 시작하세요."
"문서에 대한 불안감을 버리고, 정보를 한눈에 파악하세요."

Hyper-Extract는 LLM (Large Language Model) 기반의 지능형 지식 추출 및 진화 프레임워크입니다. 이 프레임워크는 고도로 비구조화된 텍스트를 지속적이고 예측 가능하며 강력한 타입이 지정된 **지식 추상화 (Knowledge Abstracts)**로 변환하는 과정을 획기적으로 단순화합니다. 단순한 컬렉션 (Collections) (리스트/집합) 및 **Pydantic 모델 (Pydantic Models)**부터 복잡한 지식 그래프 (Knowledge Graphs), 하이퍼그래프 (Hypergraphs), 그리고 **시공간 그래프 (Spatio-Temporal Graphs)**에 이르기까지 광범위한 형식으로 정보를 손쉽게 추출합니다.
🔷 8가지 지식 구조 |
단순 리스트부터 고급 그래프, 하이퍼그래프, 시공간 그래프까지 |
🧠 10개 이상의 추출 엔진 |
GraphRAG, LightRAG, Hyper-RAG, KG-Gen 등 — 즉시 사용 가능 |
📝 80개 이상의 YAML 템플릿 |
금융, 법률, 의료, 중의학(TCM), 산업 및 일반 도메인에 걸친 코드 없는 (Zero-code) 추출 |
🔄 점진적 진화 |
언제든지 새로운 문서를 입력하여 지식 베이스를 확장하고 정교화할 수 있습니다 |
📄 연구자 — 논문을 지식 그래프로 변환
20페이지 분량의 학술 논문을 입력하면 핵심 개념, 저자 및 인용 관계를 보여주는 대화형 그래프를 얻을 수 있습니다.
he parse paper.pdf -t general/academic_graph -o ./paper_kb/
he show ./paper_kb/
🏦 금융 분석가 — 실적 보고서에서 엔티티 추출
비구조화된 보고서에서 기업, 경영진, 재무 지표 및 이들 간의 관계를 자동으로 식별합니다.
he parse earnings.md -t finance/earnings_graph -o ./finance_kb/
he search ./finance_kb/ "What are the key risk factors?"
🔒 로컬 배포 — vLLM을 통해 데이터를 온프레미스(On-premise)에 유지
vLLM을 통해 Qwen3.5-9B + bge-m3를 로컬에서 실행합니다. 데이터가 기기를 벗어나지 않습니다.
from hyperextract import create_client
llm, emb = create_client(
llm="vllm:Qwen3.5-9B@http://localhost:8000/v1",
...
Hyper-Extract는 LLM의 구조화된 출력 능력 (json_schema 또는 Function Calling)에 의존합니다.
| 플랫폼 | 검증된 모델 |
|---|---|
| OpenAI | gpt-4o, gpt-4o-mini, gpt-5 |
| 阿里云百炼 (Alibaba Cloud Bailian) | qwen-plus, qwen-turbo, deepseek-r1 |
| Local vLLM | Qwen3.5-9B (GPTQ-Marlin) |
임베딩 모델 (Embedding models) (시맨틱 검색 (semantic search))은 다음과 같은 모든 OpenAI 호환 엔드포인트(endpoint)와 작동합니다: text-embedding-3-small, text-embedding-v4 (Bailian), bge-m3 (local vLLM).
📖 전체 가이드: Provider System & Local Model Support
# 설치
uv tool install hyperextract
# API 키 설정
...
🐍 Python API (클릭하여 확장)
uv pip install hyperextract
from hyperextract import Template
ka = Template.create("general/biography_graph")
with open("examples/en/tesla.md") as f:
...
🔗 더 많은 예시: examples/en
| 기능 | GraphRAG | LightRAG | KG-Gen | ATOM | Hyper-Extract |
|---|---|---|---|---|---|
| 지식 그래프 (Knowledge Graph) | ✅ | ✅ | ✅ | ✅ | ✅ |
| ... |
단순한 구조부터 복잡한 구조까지 — 데이터에 맞는 적절한 구조를 선택하세요:
예시 — AutoGraph 시각화:
📋 내부 구조는 어떻게 되어 있나요? (아키텍처 (Architecture) & 템플릿 (Templates))
Hyper-Extract는 **3계층 아키텍처 (three-layer architecture)**를 따릅니다:
Auto-Types — 8가지 강력한 타입 지정 데이터 구조 (Model, List, Set, Graph, Hypergraph, Temporal Graph, Spatial Graph, Spatio-Temporal Graph)
Methods — 추출 알고리즘 (Extraction algorithms): KG-Gen, GraphRAG, LightRAG, Hyper-RAG, Cog-RAG 등
Templates — 6개 도메인에 걸친 80개 이상의 프리셋 (presets). 코드 없는 설정 (Zero-code setup).

템플릿 예시 (Graph 타입):
language: en
name: Knowledge Graph
type: graph
...
| 리소스 | 링크 |
|---|---|
| 전체 문서 (Full Documentation) | yifanfeng97.github.io/Hyper-Extract |
| ... |
기여를 환영합니다! Issue와 PR을 제출해 주세요.
Apache-2.0 라이선스 하에 배포됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기