Hyper-Extract

요약

Hyper-Extract는 비구조화된 텍스트를 지식 그래프, 하이퍼그래프 등 구조화된 지식으로 변환하는 LLM 기반 CLI 프레임워크입니다. Pydantic 모델부터 복잡한 시공간 그래프까지 다양한 형식의 지식 추상화를 지원하며, 로컬 vLLM 배포를 통해 데이터 보안을 유지할 수 있습니다.

핵심 포인트

단일 명령으로 문서를 지식 그래프 및 하이퍼그래프로 변환
GraphRAG, LightRAG 등 10개 이상의 추출 엔진 탑재
금융, 법률 등 80개 이상의 도메인별 YAML 템플릿 제공
vLLM을 활용한 온프레미스 로컬 배포 및 데이터 보안 지원

스마트 지식 추출 CLI (Smart Knowledge Extraction CLI)

단 한 번의 명령으로 문서를 구조화된 지식으로 변환하세요.

"읽는 것을 멈추고, 이해를 시작하세요."

"문서에 대한 불안감을 버리고, 정보를 한눈에 파악하세요."

Hero & Workflow

Hyper-Extract는 LLM (Large Language Model) 기반의 지능형 지식 추출 및 진화 프레임워크입니다. 이 프레임워크는 고도로 비구조화된 텍스트를 지속적이고 예측 가능하며 강력한 타입이 지정된 **지식 추상화 (Knowledge Abstracts)**로 변환하는 과정을 획기적으로 단순화합니다. 단순한 컬렉션 (Collections) (리스트/집합) 및 **Pydantic 모델 (Pydantic Models)**부터 복잡한 지식 그래프 (Knowledge Graphs), 하이퍼그래프 (Hypergraphs), 그리고 **시공간 그래프 (Spatio-Temporal Graphs)**에 이르기까지 광범위한 형식으로 정보를 손쉽게 추출합니다.

📄 연구자 — 논문을 지식 그래프로 변환

20페이지 분량의 학술 논문을 입력하면 핵심 개념, 저자 및 인용 관계를 보여주는 대화형 그래프를 얻을 수 있습니다.

he parse paper.pdf -t general/academic_graph -o ./paper_kb/
he show ./paper_kb/

🏦 금융 분석가 — 실적 보고서에서 엔티티 추출

비구조화된 보고서에서 기업, 경영진, 재무 지표 및 이들 간의 관계를 자동으로 식별합니다.

he parse earnings.md -t finance/earnings_graph -o ./finance_kb/
he search ./finance_kb/ "What are the key risk factors?"

🔒 로컬 배포 — vLLM을 통해 데이터를 온프레미스(On-premise)에 유지

vLLM을 통해 Qwen3.5-9B + bge-m3를 로컬에서 실행합니다. 데이터가 기기를 벗어나지 않습니다.

from hyperextract import create_client
llm, emb = create_client(
llm="vllm:Qwen3.5-9B@http://localhost:8000/v1",
...

Hyper-Extract는 LLM의 구조화된 출력 능력 (json_schema 또는 Function Calling)에 의존합니다.

플랫폼	검증된 모델
OpenAI	gpt-4o, gpt-4o-mini, gpt-5
阿里云百炼 (Alibaba Cloud Bailian)	qwen-plus, qwen-turbo, deepseek-r1
Local vLLM	Qwen3.5-9B (GPTQ-Marlin)

임베딩 모델 (Embedding models) (시맨틱 검색 (semantic search))은 다음과 같은 모든 OpenAI 호환 엔드포인트(endpoint)와 작동합니다: text-embedding-3-small, text-embedding-v4 (Bailian), bge-m3 (local vLLM).

📖 전체 가이드: Provider System & Local Model Support

# 설치
uv tool install hyperextract
# API 키 설정
...

🐍 Python API (클릭하여 확장)

uv pip install hyperextract

from hyperextract import Template
ka = Template.create("general/biography_graph")
with open("examples/en/tesla.md") as f:
...

🔗 더 많은 예시: examples/en

기능	GraphRAG	LightRAG	KG-Gen	ATOM	Hyper-Extract
지식 그래프 (Knowledge Graph)	✅	✅	✅	✅	✅
...

단순한 구조부터 복잡한 구조까지 — 데이터에 맞는 적절한 구조를 선택하세요:

예시 — AutoGraph 시각화:

📋 내부 구조는 어떻게 되어 있나요? (아키텍처 (Architecture) & 템플릿 (Templates))

Hyper-Extract는 **3계층 아키텍처 (three-layer architecture)**를 따릅니다:

Auto-Types — 8가지 강력한 타입 지정 데이터 구조 (Model, List, Set, Graph, Hypergraph, Temporal Graph, Spatial Graph, Spatio-Temporal Graph)
Methods — 추출 알고리즘 (Extraction algorithms): KG-Gen, GraphRAG, LightRAG, Hyper-RAG, Cog-RAG 등
Templates — 6개 도메인에 걸친 80개 이상의 프리셋 (presets). 코드 없는 설정 (Zero-code setup).

Architecture

템플릿 예시 (Graph 타입):

language: en
name: Knowledge Graph
type: graph
...

리소스	링크
전체 문서 (Full Documentation)	yifanfeng97.github.io/Hyper-Extract
...

기여를 환영합니다! Issue와 PR을 제출해 주세요.

Apache-2.0 라이선스 하에 배포됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Hyper-Extract

요약

핵심 포인트

댓글

Claude Code, Codex, Gemini를 포함한 12개의 AI 코딩 에이전트를 Visual Studio Code 내에서 팀으로서

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection

누군가가 Coldcard 도둑에게 약 1달러의 비용으로 훔친 비트코인을 세탁해 주겠다는 온체인 제안을 보냈다고 알려짐

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection

누군가가 Coldcard 도둑에게 약 1달러의 비용으로 훔친 비트코인을 세탁해 주겠다는 온체인 제안을 보냈다고 알려짐