900 개 인기 오픈소스 AI 도구에서 배운 것
요약
본 기사는 방대한 양의 오픈소스 AI 저장소를 분석하여 현재 AI 생태계의 구조와 트렌드를 심층적으로 탐구합니다. 저자는 AI 스택을 '인프라', '모델 개발', '애플리케이션 개발'의 세 가지 레이어로 분류하고, 각 레이어에서 사용되는 핵심 도구와 기술들을 소개합니다. 분석 결과, 애플리케이션 개발 레이어가 가장 빠르게 진화하며 현재 가장 많은 활동이 일어나고 있으며, 코드 작성, 워크플로우 자동화, 정보 집계 등의 응용 프로그램 유형이 가장 인기가 높음을 밝힙니다.
핵심 포인트
- AI 스택은 인프라(서비스 도구, 벡터 DB 등), 모델 개발(훈련 프레임워크, 추론 최적화), 애플리케이션 개발(RAG, Prompt Engineering)의 3개 레이어로 구조화하여 이해할 수 있다.
- 최근 오픈소스 AI 생태계에서 가장 활발하게 발전하고 있는 영역은 '애플리케이션 개발' 레이어이며, 이는 AI 엔지니어링으로 불린다.
- 가장 인기 있는 애플리케이션 유형으로는 코드 작성(Coding), 봇(Bots) 제작, 정보 집계(Information Aggregation) 등이 있다.
- 오픈소스 커뮤니티의 활동은 초기 폭발기 이후 어느 정도 안정화되었으며, 이는 경쟁이 치열해지면서 더 깊고 실용적인 기술 스택으로 초점이 이동했음을 시사한다.
[ Hacker News 토론, LinkedIn 토론, Twitter 스레드 ] 업데이트 (2026 년 2 월): 오픈소스 AI 저장소는 Good AI List 에서 매일 업데이트되며 전체 목록으로 호스팅됩니다. 이는 15K 개의 저장소로 불려졌으며, 누락된 저장소를 제출할 수 있습니다. 또한 GitHub 의 cool-llm-repos 목록에서 일부 저장소를 찾을 수도 있습니다. 4 년 전, 저는 오픈소스 ML 생태계에 대한 분석을 수행했습니다. 이후 경향이 변했으므로 다시 이 주제를 검토했습니다. 이번에는 foundation models 주변 스택에 집중했습니다. 검색 데이터는 gpt, llm, generative ai 키워드로 GitHub 를 검색하여 수집했습니다. AI 가 지금 너무 압도적으로 느껴진다면 그것은 사실입니다. gpt 만으로도 118K 개의 결과가 있습니다. 내 삶을 더 쉽게 만들기 위해 별표수가 500 개 이상인 저장소로 검색을 제한했습니다. llm 은 590 개, gpt 는 531 개, generative ai 는 38 개의 결과가 있었습니다. 또한 새로운 저장소를 찾기 위해 GitHub trending 과 소셜 미디어를 간혹 확인했습니다. 많은 시간 후에 896 개의 저장소를 찾았습니다. 이 중 51 개는 튜토리얼 (예: dair-ai/Prompt-Engineering-Guide) 및 통합 목록 (예: f/awesome-chatgpt-prompts) 입니다. 이러한 튜토리얼과 목록은 유용하지만, 저는 소프트웨어에 더 관심이 있습니다. 여전히 최종 목록에 포함되지만, 분석은 845 개의 소프트웨어 저장소에서 수행됩니다. 이는 고통스럽지만 보람찬 과정이었습니다. 사람들이 무엇을 작업하고 있는지, 오픈소스 커뮤니티가 얼마나 협동적인지, 그리고 중국의 오픈소스 생태계가 서구와 어떻게 다른지를 훨씬 더 잘 이해해 주었습니다. 새로운 AI 스택 저는 AI 스택을 인프라, 모델 개발, 애플리케이션 개발이라는 3 개의 레이어로 생각합니다. 인프라 가장 아래에는 인프라가 있으며, 이는 서비스 도구 (vllm, NVIDIA 의 Triton), 컴퓨팅 관리 (skypilot), 벡터 검색 및 데이터베이스 (faiss, milvus, qdrant, lancedb) 등을 포함합니다.... 모델 개발 이 레이어는 모델 개발을 위한 도구들을 제공하며, 모델링 및 훈련 프레임워크 (transformers, pytorch, DeepSpeed), 추론 최적화 (ggml, openai/triton), 데이터셋 엔지니어링, 평가 등을 포함합니다.... 모델의 가중치를 변경하는 모든 작업은 이 레이어에서 이루어지며,其中包括 fine-tuning. 애플리케이션 개발 readily available 모델을 기반으로 누구나 이를 위에 애플리케이션을 개발할 수 있습니다. 이는 지난 2 년 동안 가장 많은 행동을 보였으며 여전히 빠르게 진화하고 있는 레이어입니다. 이 레이어는 AI 엔지니어링으로도 알려져 있습니다. 애플리케이션 개발은 prompt engineering, RAG, AI 인터페이스 등을 포함합니다.... 이러한 3 개의 레이어 외에도 저는 두 가지 다른 카테고리를 가지고 있습니다: 모델 저장소로, 이는 회사와 연구원들이 모델과 관련된 코드를 공유하기 위해 생성합니다. 이 카테고리의 예는 CompVis/stable-diffusion, openai/whisper, facebookresearch/llama 입니다. 기존 모델을 위에 구축된 애플리케이션. 가장 인기 있는 애플리케이션 유형은 코드 작성, 워크플로우 자동화, 정보 집계 등입니다.... 주석: 이전 버전의 이 글에서 애플리케이션은 스택의 다른 레이어로 포함되었습니다. AI 스택 시간 경과에 따른 변화 저는 각 카테고리별 저장소의 누적 수를 월간월간 그래프로 그렸습니다. 2023 년 Stable Diffusion 과 ChatGPT 소개 후 새로운 도구들이 폭발적으로 증가했습니다. 곡선은 2023 년 9 월에 평평해 보이며, 이는 세 가지 잠재적 이유 때문입니다. 저는 분석에 별표수가 500 개 이상인 저장소만 포함하며, 저장소가 이러한 많은 별표를 모으는 데 시간이 걸립니다. 대부분의 낮은 수확량은 이미 채집되었습니다. 남은 것은 더 많은 노력이 필요합니다.
build, hence fewer people can build them. People have realized that it's hard to be competitive in the generative AI space, so the excitement has calmed down. Anecdotally, in early 2023, all AI conversations I had with companies centered around gen AI, but the recent conversations are more grounded. Several even brought up scikit-learn. I'd like to revisit this in a few months to verify if it's true. In 2023, the layers that saw the highest increases were the applications and application development layers. The infrastructure layer saw a little bit of growth, but it was far from the level of growth seen in other layers. Applications Not surprisingly, the most popular types of applications are coding, bots (e.g. role-playing, WhatsApp bots, Slack bots), and information aggregation (e.g.
기타 플랫폼 작업. 생성형 AI 가 가져온 모든 변화에도 불구하고 오픈소스 AI 인프라 레이어는 대체로 동일하게 유지되었습니다. 이는 또한 인프라 제품이 일반적으로 오픈소스가 되지 않기 때문일 수 있습니다. 이 레이어의 최신 카테고리는 Qdrant, Pinecone, LanceDB 와 같은 회사들이 있는 벡터 데이터베이스입니다. 그러나 많은 사람들이 이것이 카테고리가 될 것이라 주장하지 않는다고 말합니다. 벡터 검색은 오랫동안 존재해 왔습니다. 벡터 검색을 위해 새로운 데이터베이스를 구축하는 대신, DataStax 와 Redis 와 같은 기존 데이터베이스 회사는 이미 데이터를 가지고 있는 곳으로 벡터 검색을 가져오고 있습니다.
오픈소스 AI 개발자
소프트웨어는 많은 것들과 마찬가지로 오픈소스 소프트웨어도 긴 꼬리 분포를 따릅니다. 일부 계정이 리포지토리의 상당 부분을 통제합니다. 1 인 기업 10 억 원? 845 개의 리포지터리는 594 개의 고유 GitHub 계정에 호스팅됩니다. 최소 4 개의 리포지터리가 있는 계정은 20 개 있습니다. 이 상위 20 개 계정은 리포지토리의 195 개를 호스팅하거나, 목록에 있는 모든 리포지터리의 23%입니다. 이 195 개의 리포지터리는 총 1,650,000 개의 스타를 얻었습니다. Github 에서 계정은 조직 또는 개인일 수 있습니다. 상위 20 개 계정 중 19/20 은 조직입니다. 그중 Google 에 속한 것은 google-research, google, tensorflow 입니다. 이 상위 20 개 계정 중 유일한 개인 계정은 lucidrains 입니다.
가장 많은 스타를 가진 상위 20 개 계정 (단순히 생성형 AI 리포지터리만 계산) 중 4 개의 개인 계정이 있습니다: lucidrains (Phil Wang): 최첨단 모델을 매우 빠르게 구현할 수 있는 사람. ggerganov (Georgi Gerganov): 물리학 배경에서 온 최적화 신. Illyasviel (Lyumin Zhang): Foocus 와 ControlNet 의 창립자이며 현재 스탠포드 박사입니다. xtekky: gpt4free 를 만든 풀스택 개발자.
예상대로, 스택이 낮아질수록 개인이 구축하는 것은 더 어려워집니다. 인프라 레이어의 소프트웨어는 개인 계정에 시작되고 호스팅될 가능성이 가장 적으며, 반 이상의 애플리케이션은 개인에 의해 호스팅됩니다. 개인에 의해 시작된 애플리케이션은 평균적으로 조직에 의해 시작된 애플리케이션보다 더 많은 스타를 얻었습니다.
여러 사람이 매우 가치 있는 1 인 기업들이 많이 보일 것이라고 추측했습니다 (Sam Altman 의 인터뷰와 Reddit 토론을 참조). 저는 그들이 맞을 것 같습니다. 100 만 개의 커밋
이 845 개의 리포지터리에 20,000 개 이상의 개발자가 기여했습니다. 총 거의 100 만 개의 기여를 했습니다! 그중 가장 활발한 50 명의 개발자는 100,000 개의 커밋을 만들었으며, 평균적으로 2,000 개의 커밋을 만들었습니다. 가장 활발한 상위 50 개 오픈소스 개발자의 전체 목록은 여기에 있습니다.
중국 오픈소스 생태계의 성장
중국의 AI 생태계가 미국과 분화되어 왔다는 것은 오랫동안 알려져 왔습니다 (저도 2020 년 블로그 포스트에서 언급했습니다). 당시에는 GitHub 가 중국에서 널리 사용되지 않았다고 생각했는데, 저의 의견은 아마도 중국의 2013 년 GitHub 금지에 의해 색채가 되었을 것입니다. 그러나 이러한 인상은 이제 더 이상 사실이 아닙니다. 많은, 많은 인기 있는 AI 리포지터리는 중국어 청중을 대상으로 하는 GitHub 에 있으며, 설명이 중국어로 작성됩니다. 중국 또는 중국 + 영어를 위한 모델 개발을 위한 리포지터리가 있습니다. Qwen, ChatGLM3, Chinese-LLaMA 와 같은 것들입니다.
미국에서는 많은 연구소가 언어 모델에서 RNN 아키텍처에서 멀어졌지만, RNN 기반 모델 패밀리 RWKV 는 여전히 인기가 있습니다. 중국에서 인기 있는 WeChat, QQ, DingTalk 등 제품으로 AI 모델을 통합하는 방법을 제공하는 AI 엔지니어링 도구도 있습니다. 많은 인기 있는 promp
t engineering tools 또한 중국어 버전이 있습니다. GitHub 상위 20 개 계정 중 6 개가 중국에서 기원했습니다:
THUDM: 청화대학교 (Tsinghua University) 지식 공학 그룹 (KEG) 및 데이터 마이닝.
OpenGVLab: 상하이 AI 연구소 (Shanghai AI Laboratory) 일반 비전 팀.
OpenBMB: 모델베스트 (ModelBest) 와 청화대학교 NLP 그룹이 설립한 오픈 라벨을 위한 대형 모델 기반.
InternLM: 상하이 AI 연구소에서.
OpenMMLab: 홍콩 중국 대학에서.
QwenLM: 알리바바의 AI 연구소, Qwen 모델 가족을 발행합니다.
빠르게 살아라, 젊게 죽어라 (Live fast, die young)
지난 해에 본 패턴 중 하나는 많은 저장소가 빠르게 거대한 양의 눈을 얻었다가 빠르게 사라진다는 것입니다. 내 친구들은 이를 "허브 곡선"이라고 부릅니다.
이 845 개의 저장소 중 최소 500 개 GitHub 스타를 가진 경우, 지난 24 시간 동안 새로운 스타를 얻지 않은 저장소는 158 개 (18.8%)이고, 지난 1 주 동안 새로운 스타를 얻지 않은 저장소는 37 개 (4.5%)입니다.
이러한 두 저장소의 성장 곡선과 두 가지 지속 가능한 소프트웨어의 성장 곡선을 비교한 예입니다.
여기서 제시된 이 두 예는 더 이상 사용되지 않지만, 커뮤니티가 무엇을 할 수 있는지 보여주고 저자들이 그렇게 빠르게 일을 완료할 수 있었음을 보여주는 것이 좋았습니다.
내 개인적인 좋아하는 아이디어 (My personal favorite ideas)
많은 멋진 아이디어들이 커뮤니티에서 개발되고 있습니다. 여기 내 중的一些 favorites 입니다.
배치 추론 최적화: FlexGen, llama.cpp
더 빠른 디코더: Medusa, LookaheadDecoding 기법 등.
모델 병합: mergekit
제한된 샘플링: outlines, guidance, SGLang
einops 와 safetensors 와 같이 하나의 문제를 정말 잘 해결하는 것으로 보이는 니치 도구들.
결론 (Conclusion)
저는 분석에 845 개의 저장소만 포함했지만, 수천 개의 저장소를 확인했습니다. 이는 거대한 그림을 얻기 위해 도움이 되었습니다. 겉보기에는 압도적인 AI 생태계입니다. 이 목록이 여러분에게도 유용하기를 바랍니다.
제가 누락한 저장소가 무엇인지 알려주세요. 제가 그들을 목록에 추가할 것입니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 Chip Huyen Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기