본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 06. 19. 04:46

Hyper-Extract

요약

Hyper-Extract는 비구조화된 텍스트를 지식 그래프, 하이퍼그래프 등 구조화된 지식으로 변환하는 LLM 기반 CLI 프레임워크입니다. Pydantic 모델부터 복잡한 시공간 그래프까지 다양한 형식의 지식 추상화를 지원하며, 로컬 vLLM 배포를 통해 데이터 보안을 유지할 수 있습니다.

핵심 포인트

  • 단일 명령으로 문서를 지식 그래프 및 하이퍼그래프로 변환
  • GraphRAG, LightRAG 등 10개 이상의 추출 엔진 탑재
  • 금융, 법률 등 80개 이상의 도메인별 YAML 템플릿 제공
  • vLLM을 활용한 온프레미스 로컬 배포 및 데이터 보안 지원

스마트 지식 추출 CLI (Smart Knowledge Extraction CLI)

단 한 번의 명령으로 문서를 구조화된 지식으로 변환하세요.

"읽는 것을 멈추고, 이해를 시작하세요."

"문서에 대한 불안감을 버리고, 정보를 한눈에 파악하세요."

Hero & Workflow

Hyper-Extract는 LLM (Large Language Model) 기반의 지능형 지식 추출 및 진화 프레임워크입니다. 이 프레임워크는 고도로 비구조화된 텍스트를 지속적이고 예측 가능하며 강력한 타입이 지정된 **지식 추상화 (Knowledge Abstracts)**로 변환하는 과정을 획기적으로 단순화합니다. 단순한 컬렉션 (Collections) (리스트/집합) 및 **Pydantic 모델 (Pydantic Models)**부터 복잡한 지식 그래프 (Knowledge Graphs), 하이퍼그래프 (Hypergraphs), 그리고 **시공간 그래프 (Spatio-Temporal Graphs)**에 이르기까지 광범위한 형식으로 정보를 손쉽게 추출합니다.

🔷 8가지 지식 구조 |
단순 리스트부터 고급 그래프, 하이퍼그래프, 시공간 그래프까지 |
🧠 10개 이상의 추출 엔진 |
GraphRAG, LightRAG, Hyper-RAG, KG-Gen 등 — 즉시 사용 가능 |
📝 80개 이상의 YAML 템플릿 |
금융, 법률, 의료, 중의학(TCM), 산업 및 일반 도메인에 걸친 코드 없는 (Zero-code) 추출 |
🔄 점진적 진화 |
언제든지 새로운 문서를 입력하여 지식 베이스를 확장하고 정교화할 수 있습니다 |

📄 연구자 — 논문을 지식 그래프로 변환

20페이지 분량의 학술 논문을 입력하면 핵심 개념, 저자 및 인용 관계를 보여주는 대화형 그래프를 얻을 수 있습니다.

he parse paper.pdf -t general/academic_graph -o ./paper_kb/
he show ./paper_kb/

🏦 금융 분석가 — 실적 보고서에서 엔티티 추출

비구조화된 보고서에서 기업, 경영진, 재무 지표 및 이들 간의 관계를 자동으로 식별합니다.

he parse earnings.md -t finance/earnings_graph -o ./finance_kb/
he search ./finance_kb/ "What are the key risk factors?"

🔒 로컬 배포 — vLLM을 통해 데이터를 온프레미스(On-premise)에 유지

vLLM을 통해 Qwen3.5-9B + bge-m3를 로컬에서 실행합니다. 데이터가 기기를 벗어나지 않습니다.

from hyperextract import create_client
llm, emb = create_client(
llm="vllm:Qwen3.5-9B@http://localhost:8000/v1",
...

Hyper-Extract는 LLM의 구조화된 출력 능력 (json_schema 또는 Function Calling)에 의존합니다.

플랫폼검증된 모델
OpenAIgpt-4o, gpt-4o-mini, gpt-5
阿里云百炼 (Alibaba Cloud Bailian)qwen-plus, qwen-turbo, deepseek-r1
Local vLLMQwen3.5-9B (GPTQ-Marlin)

임베딩 모델 (Embedding models) (시맨틱 검색 (semantic search))은 다음과 같은 모든 OpenAI 호환 엔드포인트(endpoint)와 작동합니다: text-embedding-3-small, text-embedding-v4 (Bailian), bge-m3 (local vLLM).

📖 전체 가이드: Provider System & Local Model Support

# 설치
uv tool install hyperextract
# API 키 설정
...

🐍 Python API (클릭하여 확장)

uv pip install hyperextract

from hyperextract import Template
ka = Template.create("general/biography_graph")
with open("examples/en/tesla.md") as f:
...

🔗 더 많은 예시: examples/en

기능GraphRAGLightRAGKG-GenATOMHyper-Extract
지식 그래프 (Knowledge Graph)
...

단순한 구조부터 복잡한 구조까지 — 데이터에 맞는 적절한 구조를 선택하세요:

예시 — AutoGraph 시각화:

📋 내부 구조는 어떻게 되어 있나요? (아키텍처 (Architecture) & 템플릿 (Templates))

Hyper-Extract는 **3계층 아키텍처 (three-layer architecture)**를 따릅니다:

Auto-Types — 8가지 강력한 타입 지정 데이터 구조 (Model, List, Set, Graph, Hypergraph, Temporal Graph, Spatial Graph, Spatio-Temporal Graph)
Methods — 추출 알고리즘 (Extraction algorithms): KG-Gen, GraphRAG, LightRAG, Hyper-RAG, Cog-RAG 등
Templates — 6개 도메인에 걸친 80개 이상의 프리셋 (presets). 코드 없는 설정 (Zero-code setup).

Architecture

템플릿 예시 (Graph 타입):

language: en
name: Knowledge Graph
type: graph
...
리소스링크
전체 문서 (Full Documentation)yifanfeng97.github.io/Hyper-Extract
...

기여를 환영합니다! Issue와 PR을 제출해 주세요.

Apache-2.0 라이선스 하에 배포됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0