본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 05. 29. 06:00

ruc-datalab/DeepAnalyze

요약

DeepAnalyze는 데이터 준비부터 모델링, 시각화, 보고서 생성까지 데이터 과학의 전 과정을 자율적으로 수행하는 최초의 에이전트형 LLM입니다. 구조화 및 비구조화 데이터를 모두 처리하며, 모델과 코드, 학습 데이터가 모두 공개된 오픈 소스 프로젝트입니다.

핵심 포인트

  • 데이터 과학 파이프라인 전 과정을 자율적으로 수행
  • 다양한 데이터 소스(CSV, JSON, Markdown 등) 지원
  • 모델, 코드, 학습 데이터가 포함된 완전한 오픈 소스
  • Docker 기반 샌드박스 코드 실행 및 API 지원

저자: Shaolei Zhang, Ju Fan*, Meihao Fan, Guoliang Li, Xiaoyong Du
중국 인민대학교 (Renmin University of China), 칭화대학교 (Tsinghua University)

DeepAnalyze는 자율적인 데이터 과학 (Data Science)을 위한 최초의 에이전트형 LLM (Agentic LLM)입니다. 인간의 개입 없이도 다음과 같은 광범위한 데이터 중심 작업을 자율적으로 완료할 수 있습니다:

  • 🛠
    전체 데이터 과학 파이프라인 (Entire data science pipeline): 데이터 준비, 분석, 모델링, 시각화 및 보고서 생성과 같은 모든 데이터 과학 작업을 자동으로 수행합니다. - 🔍
    개방형 데이터 연구 (Open-ended data research): 구조화된 데이터 (데이터베이스, CSV, Excel), 반구조화된 데이터 (JSON, XML, YAML), 비구조화된 데이터 (TXT, Markdown)를 포함한 다양한 데이터 소스에 대해 심층 연구를 수행하고, 최종적으로 분석가 수준의 연구 보고서를 생성합니다. - 📊
    완전한 오픈 소스 (Fully open-source): DeepAnalyze의 모델, 코드, 학습 데이터 및 데모는 모두 오픈 소스로 공개되어 있어, 자신만의 데이터 분석 어시스턴트를 배포하거나 확장할 수 있습니다.

[2026.03.16]: 더욱 매끄러운 UI, HeyWhale API 지원, Docker 기반의 샌드박스 코드 실행 (Docker-based sandboxed code execution) 지원을 특징으로 하는 DeepAnalyze WebUI v2를 업데이트했습니다. 자세한 내용은 Readme를 참조하세요. -
[2026.01.31]: 🎉🎉🎉DeepAnalyze가 **2026년(제19회) 중국 대학생 컴퓨터 디자인 대회 빅데이터 주제 부문 (2026 (19th) China Collegiate Computer Design Contest – Big Data Track)**을 지원하는 공식 에이전트로 참여했습니다. -
[2025.12.28] 공지: DeepAnalyze API 키 사용 가능 🎉🎉🎉 이제 이 Google Form 또는 Feishu Form을 통해 API 키를 신청할 수 있습니다. 자세한 내용과 사용 방법은 Guide 또는 Feishu Wiki를 참조하십시오. -
[2025.11.13]: DeepAnalyze는 이제 OpenAI 스타일의 API 엔드포인트를 지원하며, 커맨드 라인 터미널 UI (Command Line Terminal UI)를 통해 접속할 수 있습니다. 기여자 @LIUyizheSDU 님께 감사드립니다. -
[2025.11.08]: DeepAnalyze는 이제 jupyter-mcp-server를 기반으로 구축된 Jupyter UI를 통해 접속할 수 있습니다. 기여자 @ChengJiale150 님께 감사드립니다. -
[2025.10.28]: DeepAnalyze 개선 및 사용 사례 공유를 포함한 모든 기여를 환영합니다 (CONTRIBUTION.md 참조)

). 모든 병합된 PR (Pull Request)은 기여자로 목록에 표시됩니다. -
[2025.10.27]: DeepAnalyze가 광범위한 관심을 끌며, 일주일 만에 GitHub 스타 1K+ 개와 Twitter 조회수 200K+ 회를 달성했습니다. -
[2025.10.21]: DeepAnalyze의 논문(paper), 코드, 모델, 학습 데이터(training data)가 공개되었습니다!

deepanalyze-8b.mp4

데이터를 업로드하면, DeepAnalyze는 데이터 지향적 심층 연구 (data-oriented deep research) 🔍 및 모든 데이터 중심 작업 (data-centric tasks) 🛠를 수행할 수 있습니다.

  • 이 저장소(repo)를 클론(Clone)하고 DeepAnalyze-8B를 다운로드하세요.

  • vLLM을 통해 DeepAnalyze-8B를 배포하세요:
    vllm serve DeepAnalyze-8B

  • 다음 스크립트들을 실행하여 API와 인터페이스를 시작한 후, 브라우저(http://localhost:4000)를 통해 상호작용하세요:
    cd demo/chat/frontend npm install cd .. bash start.sh # api 및 인터페이스 중지 bash stop.sh # 필요한 경우 vLLM 중지

  • 특정 IP 환경에서 배포하려는 경우, ./demo/chat/backend.py 및 ./demo/chat/frontend/lib/config.ts 파일에서 localhost를 귀하의 IP 주소로 교체하십시오.

En2.mp4

데이터를 업로드하면, DeepAnalyze는 데이터 지향적 심층 연구 (data-oriented deep research) 🔍 및 모든 데이터 중심 작업 (data-centric tasks) 🛠를 수행할 수 있습니다.

더욱 간소화된 UI

HeyWhale API 키 지원 추가

Docker 기반의 샌드박스 코드 실행 환경 (sandbox code execution environment) 지원 추가.

사용 방법은 WebUI와 동일합니다.

cd demo/chat_v2/frontend npm install cd .. cp .env.example .env bash start.sh # api 및 인터페이스 중지 bash stop.sh # 필요한 경우 vLLM 중지

example_compressed.mp4

Jupyter Notebook이 익숙하신가요? JupyterUI를 통해 DeepAnalyze를 사용해 보세요!

  • 이 데모(Demo)는 Jupyter Lab을 프론트엔드(frontend)로 실행하며, 새로운 노트북을 생성하고 <Analyze|Understand|Answer>를 마크다운(Markdown) 셀로 변환하며, <Code>를 코드(Code) 셀로 변환하여 <Execute>로 실행합니다.
  • 더 많은 내용을 확인하고 시도해 보려면 demo/jupyter로 이동하세요!
  • 👏 기여자 @ChengJiale150 님께 진심으로 감사드립니다.

api_demo.mp4

명령줄 인터페이스 (CLI)를 통해 DeepAnalyze를 사용해 보세요.

vLLM을 통해 DeepAnalyze-8B를 배포하세요:

vllm serve DeepAnalyze-8B

API 서버를 시작하고 CLI 인터페이스를 실행하세요:

cd API
python start_server.py # 하나의 터미널에서

cd demo/cli
python api_cli.py # 다른 터미널에서 (영어)

또는 python api_cli_ZH.py # 다른 터미널에서 (중국어)

CLI는 파일 업로드를 지원하고 실시간 스트리밍 응답 (streaming responses)이 가능한 Rich 기반의 아름다운 인터페이스를 제공합니다.

영어 및 중국어 인터페이스를 모두 지원합니다.

이 저장소 (repository)를 클론하여 DeepAnalyze를 로컬 데이터 분석가로 배포하세요. 워크플로우나 폐쇄형 소스 API (closed-source APIs) 없이 모든 데이터 과학 작업을 완료할 수 있습니다.

🔥 데모의 UI는 초기 버전입니다. 추가적인 개발을 환영하며, 참여 시 기여자 (contributor)로 포함해 드립니다.

API 키를 이제 사용할 수 있습니다!

키를 요청하려면 다음 신청 양식 중 하나를 작성해 주세요:

📚 포괄적인 사용 지침은 API 가이드를 참조하십시오:

Hugging Face의 RUC-DataLab/DeepAnalyze-8B에서 모델을 다운로드하거나 DeepAnalyze-8B · 模型库에서 다운로드하세요.

GPU 메모리 (Memory)모델 유형 (Model Type)권장 최대 모델 길이 (max-model-len)FP8 KV 캐시 (KV Cache) 사용
16GB8-bit 양자화 (Quantized)8192
16GB4-bit 양자화 (Quantized)49152
24GB원본 모델 (Original Model)16384
24GB8-bit 양자화 (Quantized)98304
24GB4-bit 양자화 (Quantized)131072
40GB원본 모델 (Original Model)131072
40GB8-bit 양자화 (Quantized)131072
80GB원본 모델 (Original Model)131072

양자화된 모델 (quantized model)을 얻으려면 ./quantize.py를 사용할 수 있습니다.

python -m vllm.entrypoints.openai.api_server \
--model <model_path> \
--served-model-name DeepAnalyze-8B \
...

시나리오 1: 16GB GPU 메모리 사용자 (4-bit 양자화 버전 권장)

python -m vllm.entrypoints.openai.api_server \
--model /path/to/deepanalyze/4bit \
--served-model-name DeepAnalyze-8B \
...

시나리오 2: 24GB GPU 메모리 사용자 (최대 컨텍스트 길이용)

python -m vllm.entrypoints.openai.api_server \
--model /path/to/deepanalyze/4bit \
--served-model-name DeepAnalyze-8B \
...

시나리오 3: 80GB GPU 메모리 사용자 (최고 성능)

python -m vllm.entrypoints.openai.api_server \
--model /path/to/original/model \
--served-model-name DeepAnalyze-8B \
...

메모리 제한 (<24GB): 4-bit 양자화 버전 (Quantized Version) + FP8 KV 캐시 (KV Cache) 사용
균형 잡힌 구성 (24-40GB): 요구 사항에 따라 모델 유형 선택
충분한 메모리 (≥40GB): 최상의 정밀도를 위해 원본 모델 (Original Model) 사용

실행 후, API 서비스는 http://localhost:8000/v1/completions를 통해 접속할 수 있습니다.

.

  • 패키지 설치:
    torch, transformers, vllm>=0.8.5

conda create -n deepanalyze python=3.12 -y
conda activate deepanalyze
pip install -r requirements.txt

학습용 (cd ./deepanalyze/ms-swift/ && pip install -e .)

(cd ./deepanalyze/SkyRL/ && pip install -e .)

requirements.txt에는 DeepAnalyze 추론 (Inference)에 필요한 최소한의 의존성 (Dependencies)이 나열되어 있습니다. 학습 (Training)의 경우, ./deepanalyze/ms-swift/requirements.txt./deepanalyze/SkyRL/pyproject.toml을 참조하십시오.

  • 의존성 충돌을 방지하기 위해 추론 환경과 학습 환경을 분리하는 것을 권장합니다.

vllm을 통해 DeepAnalyze-8B 배포:

vllm serve DeepAnalyze-8B

모든 데이터 과학 작업을 위해 다음 스크립트를 실행하십시오:

  • 특정 데이터 작업 및 개방형 데이터 연구를 포함한 어떠한 데이터 과학 작업도 지정할 수 있습니다. - 어떠한 수의 데이터 소스라도 지정할 수 있으며, DeepAnalyze가 이를 자동으로 탐색합니다. - 구조화된 데이터 (데이터베이스, CSV, Excel), 반구조화된 데이터 (JSON, XML, YAML), 비구조화된 데이터 (TXT, Markdown) 등 어떠한 유형의 데이터 소스라도 지정할 수 있습니다.

from deepanalyze import DeepAnalyzeVLLM
prompt = """# Instruction Generate a data science report. # Data File 1: {"name": "bool.xlsx", "size": "4.8KB"} File 2: {"name": "person.csv", "size": "10.6KB"} File 3: {"name": "disabled.xlsx", "size": "5.6KB"} File 4: {"name": "enlist.csv", "size": "6.7KB"} File 5: {"name": "filed_for_bankrupcy.csv", "size": "1.0KB"} File 6: {"name": "longest_absense_from_school.xlsx", "size": "16.0KB"} File 7: {"name": "male.xlsx", "size": "8.8KB"} File 8: {"name": "no_payment_due.xlsx", "size": "15.6KB"} File 9: {"name": "unemployed.xlsx", "size": "5.6KB"} File 10: {"name": "enrolled.csv", "size": "20.4KB"}""
workspace = "/home/u2023000922/zhangshaolei/deepanalyze_public/DeepAnalyze/example/analysis_on_student_loan/"
deepanalyze = DeepAnalyzeVLLM( "/fs/fast/u2023000922/zhangshaolei/checkpoints/deepanalyze-8b/" )
answer = deepanalyze.generate(prompt, workspace=workspace)
print(answer["reasoning"])

You shoud get a deep research report, which can be rendered as a PDF.:

학생 등록 패턴 및 기관 전입·전출의 종합적 분석

서론 및 연구 배경

학생 등록 패턴 (enrollment patterns) 분석은 교육 기관의 계획, 자원 배분 및 학생 지원 서비스에 중요한 시사점을 제공하는 교육 연구의 핵심 분야입니다. 본 종합 연구는 6개 교육 기관에 걸친 1,194개의 등록 기록을 포함하는 포괄적인 데이터셋을 인구 통계, 재정 및 고용 상태에 관한 보충 데이터와 결합하여 조사합니다. 본 연구는 네트워크 분석 (network analysis), 예측 모델링 (predictive modeling), 시계열 패턴 인식 (temporal pattern recognition)을 포함한 고급 분석 기술을 사용하여 거시적 수준의 기관 트렌드와 미시적 수준의 학생 이동성 패턴 (student mobility patterns)을 모두 밝혀냅니다. 15개월간의 등록 기록을 아우르는 데이터셋의 종단적 특성 (longitudinal nature)은 고등 교육 시스템을 통한 학생 경로의 복잡한 역학에 대한 독특한 통찰을 제공합니다. 우리의 방법론적 접근 방식은 등록 기간, 전입·전출 확률 (transfer probabilities) 및 재정 지표에 대한 정량적 분석과 정성적 ...을 결합합니다... 본 연구는 기관 전입·전출 네트워크와 학생 성과 사이의 관계에 대한 실증적 증거를 제공함으로써 학생 이동성에 관한 점증하는 문헌 연구에 기여합니다... .....

더 많은 예시와 작업 완료 세부 사항은 DeepAnalyze의 홈페이지를 참조하십시오.

  • 지정할 수 있습니다

이 스크립트를 사용하여 OpenAI 스타일의 API를 구축할 수 있습니다 (API/config.py에서 MODEL_PATH = "DeepAnalyze-8B"를 사용자의 vllm 모델 이름으로 변경해야 함에 유의하세요):
python API/start_server.py

API 사용법 :

API 사용법 :

FILE_RESPONSE=$(curl -s -X POST "http://localhost:8200/v1/files" \ -F "file=@data.csv" \ -F "purpose=file-extract") FILE_ID=$(echo $FILE_RESPONSE | jq -r '.id') curl -X POST http://localhost:8200/v1/chat/completions \ -H "Content-Type: application/json" \ -d "{ \"model\": \"DeepAnalyze-8B\", \"messages\": [ { \"role\": \"user\", \"content\": \"Generate a data science report.\", \"file_ids\": [\"$FILE_ID\"] } ] }" # wait for a while

API 상세 정보는 API/README.md를 참조하세요.

  • DeepSeek-R1-0528-Qwen3-8B를 다운로드하거나, DeepAnalyze-8B를 기반으로 직접 파인튜닝할 수 있습니다.

  • 만약 DeepSeek-R1-0528-Qwen3-8B를 기본 모델로 사용한다면, 다음 명령어를 사용하여 특수 토큰을 추가해야 합니다:

MODEL_PATH=path_to_DeepSeek-R1-0528-Qwen3-8B SAVE_PATH=path_to_save_DeepSeek-R1-0528-Qwen3-8B-addvocab python deepanalyze/add_vocab.py
--model_path "$MODEL_PATH"
--save_path "$SAVE_PATH"
--add_tags

  • 학습 데이터 DataScience-Instruct-500K를 다운로드하세요.

  • unzip
    DataScience-Instruct-500K/RL/data.zip

  • unzip

  • 단일 기능 파인튜닝(Single-ability Fine-tuning): ./scripts/single.sh

  • 다중 기능 에이전트 학습 (콜드 스타트, Multi-ability Agentic Training (cold start)): ./scripts/multi_coldstart.sh

  • 다중 기능 에이전트 학습 (강화학습, Multi-ability Agentic Training (RL)): ./scripts/multi_rl.sh

  • vLLM을 사용하여 대부분의 기존 데이터 과학 벤치마크 평가를 통합했습니다(추가되는 중...). DeepAnalyze 또는 사용자의 에이전트를 빠르게 평가하려면 ./playground에 있는 소개 부분을 직접 따라 하시면 됩니다.

모든 형태의 기여를 환영하며, 병합된 PR은 기여자 목록에 등재될 것입니다.

  • Docker 패키징, DeepAnalyze 모델 변환 및 양자화, 폐쇄형 소스 LLMs 기반 DeepAnalyze 워크플로우 제출 등 DeepAnalyze의 코드, 모델, UI 전반에 걸친 모든 형태의 기여를 환영합니다.

  • 풀 리퀘스트(pull request)를 직접 제출할 수 있습니다.

  • 기여 가이드라인은 Developer Guides를 참조해 주세요.

  • DeepAnalyze를 사용하면서 얻은 사용 사례(use cases)와 피드백을 공유해 주시는 것을 특히 권장합니다. 이는 DeepAnalyze를 개선하는 데 매우 귀중한 자료가 됩니다.

  • 사용 사례는 .example/ 하위의 새 폴더에 배치할 수 있습니다.

.example/analysis_on_student_loan/의 폴더 구조를 따르는 것을 권장하며, 여기에는 다음 세 가지 부분이 포함됩니다:

  • data/: 업로드된 파일 저장
  • prompt.txt: 입력 지침 (input instructions)
  • README.md: 문서화 (documentation)

입력값, DeepAnalyze의 출력값, 다른 폐쇄형 LLM (closed-source LLMs)의 출력값 (선택 사항), 그리고 해당 사례에 대한 귀하의 평가/의견을 포함할 것을 제안합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub AI Tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0