Hands-On-AI-Engineering: 실전 AI 엔지니어링 프로젝트 모음

언어 모델 (Language Models), 멀티모달 모델 (Multimodal Models), OCR 시스템, RAG 파이프라인, 그리고 AI 에이전트 (AI Agents)를 포함하여 다양한 모달리티 (Modalities)에 걸친 실용적이고 프로덕션 준비가 된 (Production-ready) AI 프로젝트들을 엄선하여 모았습니다. 각 프로젝트는 여러분이 학습하고, 실험하며, 실제 세계의 AI 애플리케이션을 구축할 수 있도록 설계되었습니다.

실행하며 배우기 (Learn by Doing): 각 프로젝트에는 전체 코드, 설정 지침 및 문서가 포함되어 있습니다.
프로덕션 준비 완료 (Production-Ready): 프로젝트는 베스트 프랙티스 (Best practices)를 따르며 실제 사용을 위해 조정될 준비가 되어 있습니다.
다양한 유스케이스 (Diverse Use Cases): RAG 시스템부터 멀티 에이전트 (Multi-agent) 워크플로우 및 특화된 애플리케이션까지 포함합니다.
다양한 모델 제공업체 (Multiple Model Providers): 프로젝트는 OpenAI, Anthropic, Google 및 오픈 소스 (Open-source) 모델을 사용합니다.
활발한 커뮤니티 (Active Community): 정기적인 업데이트와 새로운 프로젝트가 추가됩니다.

다양한 자동화 작업을 위한 지능형 AI 에이전트 (AI agents).

시각적 데이터와 문서에서 구조와 의미를 추출합니다.

이미지-구조화-데이터 추출기 (Image-to-Structured-Data Extractor)— Mistral Large 3와 Instructor를 사용하여 이미지를 검증된 구조화된 JSON으로 변환합니다.
LaTeX 수식 OCR (LaTeX Formula OCR)— 로컬 시각-언어 모델 (Vision-language model)을 사용하여 이미지와 PDF에서 수학 공식(Math formulas)을 추출하여 LaTeX로 변환합니다.
의료 처방전 디지털화 도구 (Medical Prescription Digitizer)— Mistral Large 3를 사용하여 수기 또는 인쇄된 처방전을 구조화된 출력으로 디지털화하며, RxNorm을 통해 실시간으로 약물 이름을 검증합니다.

오디오 이해 및 분석을 위한 프로젝트들입니다.

뮤직 익스플로러 (Music Explorer)— Gemini 1.5 Flash를 사용하여 모든 오디오 파일 또는 YouTube 비디오와 채팅합니다. 전사 (Transcription), 감정 분석, 악기 식별 및 타임스탬프 기반 분석을 요청할 수 있습니다.
다국어 오디오 번역기 (Multilingual Audio Translator)— 어떤 언어로든 오디오를 업로드하거나 녹음하면, faster-whisper로 전사하고, Gemini를 통해 번역하며, Kokoro TTS를 사용하여 합성된 음성으로 재생합니다.

시각 (Vision), 비디오 (Video), 그리고 언어 모델 (Language models)을 결합한 프로젝트들입니다.

GLM-OCR Pro— Ollama를 통해 GLM-OCR을 사용하여 구조화된 문서 추출 (Structured document extraction)을 수행하며, 이미지와 PDF를 로컬에서 포맷팅된 Markdown으로 변환합니다. Video Understanding Agent— Gemini Flash를 사용하여 YouTube 비디오를 챕터, 핵심 요약(Key takeaways), 그리고 실행 항목(Action items)으로 요약합니다. Multimodal Weather App— 지도 이미지를 업로드하면 실시간 날씨를 제공합니다. Mistral Small 4가 시각 (Vision) 기능을 통해 도시를 식별한 후, 네이티브 도구 호출 (Native tool calling)을 통해 실시간 기상 정보를 가져옵니다. Multimodal RAG— 텍ext, URL, PDF, 이미지, 오디오, 비디오를 공유된 ChromaDB 인덱스에 수집하는 RAG (Retrieval-Augmented Generation) 시스템입니다. Gemini Embedding 2가 검색 (Retrieval)을 처리하고 Gemini 3 Flash가 근거 있는 답변 (Grounded answers)을 생성하며, 미디어 소스에 대해 실제 파일 URI를 전달합니다. Image Question Answering— PDF를 업로드하고 페이지를 선택하면, Gemma 4의 사고 모드 (Thinking mode)를 통해 시각적 질문에 답변합니다. PyMuPDF는 각 페이지를 고해상도 이미지로 렌더링하여 차트, 표, 그림에 대한 근거 있는 추론 (Grounded reasoning)을 가능하게 합니다. Medical Document Parser— Gemma 4 vision을 사용하여 의료 PDF 및 이미지로부터 구조화된 임상 프로필 (Clinical profile)을 추출합니다.

지식 강화 AI 애플리케이션을 위한 검색 증강 생성 (Retrieval-Augmented Generation) 시스템입니다.

O3-Mini & DuckDuckGo를 활용한 Agentic RAG— DuckDuckGo를 통한 실시간 웹 검색과 O3-Mini를 사용하는 RAG (Retrieval-Augmented Generation) 시스템입니다.

Qwen & FireCrawl를 활용한 Agentic RAG— 웹 스크래핑(Web Scraping) 및 검색을 위해 Qwen과 FireCrawl을 사용하는 RAG 시스템입니다.

Vision RAG— 시각적 콘텐츠를 처리하고 질의하기 위한 멀티모달 (Multimodal) RAG 시스템입니다.

ADE를 활용한 임상 RAG (Clinical RAG)— 시각 중심의 문서 파싱을 위해 LandingAI ADE를 사용하고, 근거 기반 추론 (Grounded Reasoning)을 위해 Mistral Large를 사용하는 고정밀 임상 RAG 시스템입니다.

YouTube Transcript RAG— Whisper 전사 (Transcription), ChromaDB 검색, 그리고 Mistral Small 4를 사용하여 모든 YouTube 영상과 대화하며, 타임스탬프가 연결된 답변을 제공합니다.

GraphRAG 지식 시스템— Mistral Small 4와 NetworkX를 사용하여 업로드된 문서로부터 로컬 지식 그래프 (Knowledge Graph)를 구축하며, 엔티티 (Entity) 수준 및 주제별 질의를 모두 지원합니다.

하이브리드 (Hybrid) RAG 시스템— 문서를 지식 그래프와 벡터 저장소 (Vector Store)에 병렬로 인덱싱합니다. Mistral Small 4는 두 검색 경로에서 융합된 컨텍스트를 사용하여 질문에 답변합니다.

HyDE RAG— 가설 문서 임베딩 (Hypothetical Document Embeddings)을 사용하는 RAG 파이프라인입니다. Gemini 3 Flash가 가설 답변을 생성하고, Gemini Embedding 2가 이를 임베딩 및 평균화하며, 그 결과로 ChromaDB에서 더 정밀한 청크 (Chunk)를 검색합니다.

락 음악 RAG— Wikipedia를 기반으로 구축된 맞춤형 락 음악 지식 베이스입니다. 어떤 밴드든 추가하여 모든 밴드에 대해 질문할 수 있으며, BM25 검색과 Gemma 4를 통해 출처가 명시된 답변을 얻을 수 있습니다.

데이터베이스 라우팅을 활용한 RAG 에이전트— Agno 라우터 에이전트를 사용하여 세 개의 특화된 Qdrant 데이터베이스(제품, 지원, 금융)로 질의를 라우팅합니다. 관련 문서를 찾지 못할 경우 LangGraph ReAct 웹 검색 에이전트로 전환됩니다.

추론 RAG (Reasoning RAG)— 모든 웹 소스를 대상으로 질문을 던지면, Gradio를 통해 실시간으로 단계별 추론 과정 (Reasoning Trace)이 포함된 인용 답변을 제공합니다.

기여를 환영합니다! 새로운 프로젝트를 추가하거나, 기존 프로젝트를 개선하거나, 버그를 수정하는 등 여러분의 도움은 이 리포지토리 (Repository)를 모두에게 더 나은 곳으로 만듭니다.

가이드라인 읽기: 자세한 지침은 CONTRIBUTING.md를 확인하세요
이슈(Issue) 생성: 여러분의 프로젝트나 개선 사항을 제안하세요
구조 준수: 적절한 카테고리 폴더를 사용하세요
PR(Pull Request) 제출: 하나의 Pull Request당 하나의 프로젝트만 제출하세요

각 프로젝트는 적절한 카테고리 내의 개별 폴더에 있어야 합니다.
포괄적인 README.md를 포함해야 합니다 (저희 템플릿을 사용하세요).
requirements.txt 또는 pyproject.toml을 포함해야 합니다.
필수 API 키를 위한 .env.example을 포함해야 합니다.
snake_case 명명 규칙을 따르세요.

이 리포지토리 (Repository)는 MIT License에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.

이 AI 엔지니어링 프로젝트 모음을 구축하는 데 도움을 주신 모든 기여자(Contributors) 여러분께 감사드립니다!

Insights

Hands-On-AI-Engineering: 실전 AI 엔지니어링 프로젝트 모음

요약

핵심 포인트

댓글

Uber (UBER)를 보유해야 하는 설득력 있는 이유

Claude Code, Codex, Gemini를 포함한 12개의 AI 코딩 에이전트를 Visual Studio Code 내에서 팀으로서

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection

Claude Code, Codex, Gemini를 포함한 12개의 AI 코딩 에이전트를 Visual Studio Code 내에서 팀으로서

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection