AI-Research-SKILLs: 아이디어 구상부터 논문 작성까지 AI 에이전트의 자율적 AI 연구를 가능하게 하는 가장 포괄적인 오픈 소스

아이디어 구상부터 논문 작성까지 AI 에이전트가 자율적으로 AI 연구를 수행할 수 있도록 지원하는 가장 포괄적인 오픈 소스 기술 (skills) 라이브러리입니다.

23개 카테고리 모두 보기

우리의 미션 (Our Mission)
AI 연구 에이전트를 향한 경로 (Path Towards AI Research Agent)
사용 가능한 AI 연구 엔지니어링 기술 (Available AI Research Engineering Skills)
데모 (Demos)
기술 구조 (Skill Structure)
로드맵 (Roadmap)
저장소 구조 (Repository Structure)
활용 사례 (Use Cases)
기여자 (Contributors)
인용 (Citation)
커뮤니티 (Community)

우리는 AI 에이전트가 문헌 조사 및 아이디어 생성부터 실험 실행을 거쳐 논문 작성에 이르기까지 자율적으로 AI 연구를 수행할 수 있도록 지원합니다. 이 라이브러리는 각 단계에서 필요한 연구 오케스트레이션 계층 (research orchestration layer) (자율 연구, 아이디어 구상, 논문 작성)과 엔지니어링 기술 (engineering skills) (학습, 평가, 배포)을 모두 제공합니다.

AI 연구 에이전트의 시스템 다이어그램

현대적인 AI 연구는 수십 개의 전문화된 도구와 프레임워크를 숙달할 것을 요구합니다. AI 연구자들은 가설을 검증하는 것보다 인프라를 디버깅하는 데 더 많은 시간을 소비하며, 이는 과학적 발견의 속도를 늦춥니다. 우리는 AI 에이전트가 아이디어 브레인스토밍부터 논문 작성에 이르기까지 전체 연구 생애 주기를 자율적으로 수행할 수 있도록 하는 포괄적인 기술 라이브러리를 제공합니다.

자율 연구 (Autonomous Research) - autoresearch 스킬은 2중 루프 아키텍처 (two-loop architecture)를 사용하여 전체 연구 워크플로우를 조율하며, 필요에 따라 도메인 스킬 (domain skills)로 라우팅합니다. - 전문 지식 (Specialized Expertise) - 각 도메인 스킬은 특정 프레임워크 (Megatron-LM, vLLM, TRL 등)에 대한 심층적이고 프로덕션 준비가 된 (production-ready) 지식을 제공합니다.
엔드 투 엔드 커버리지 (End-to-End Coverage) - 아이디어 구상 및 문헌 조사부터 실험 및 논문 작성에 이르기까지 전체 AI 연구 생애 주기를 아우르는 98개의 스킬을 제공합니다.
연구급 품질 (Research-Grade Quality) - 공식 저장소 (official repos), 실제 GitHub 이슈, 그리고 실전에서 검증된 프로덕션 워크플로우에서 가져온 문서를 제공합니다.

양보다 질 (Quality over quantity): 각 스킬은 실제 코드 예시, 문제 해결 가이드 (troubleshooting guides), 그리고 프로덕션 준비가 된 워크플로우와 함께 포괄적인 전문가 수준의 지침을 제공합니다.

인간을 위한 용도 — 단 한 줄의 명령어로 실행 가능한 대화형 설치 프로그램:

npx @orchestra-research/ai-research-skills

AI 에이전트를 위한 용도 — 에이전트가 웰컴 문서 (welcome doc)를 가리키게 하면 나머지는 에이전트가 처리합니다:

https://www.orchestra-research.com/ai-research-skills/welcome.md 를 읽고 안내에 따라 AI Research Skills를 설치하고 사용하십시오.

이를 통해 98개의 모든 스킬을 설치하고, autoresearch 오케스트레이션 레이어 (orchestration layer)를 로드하며, 자율 연구를 시작합니다.

설치 프로그램이 수행하는 작업

설치된 코딩 에이전트 (Claude Code, Hermes Agent, OpenCode, Cursor, Gemini CLI 등)를 **자동 감지 (Auto-detects)**합니다.
각 에이전트에 대한 심볼릭 링크 (symlinks)와 함께 스킬을 ~/.orchestra/skills/에 **설치 (Installs)**합니다 (Windows의 경우 복사 방식으로 대체).
전체 패키지, 퀵스타트 번들 (quickstart bundle), 카테고리별 또는 개별 스킬 중 원하는 것을 **제공 (Offers)**합니다.
설치된 스킬을 최신 버전으로 **업데이트 (Updates)**합니다.
모든 스킬 또는 선택한 스킬을 **제거 (Uninstalls)**합니다.

CLI 명령어

# 대화형 설치 프로그램 (권장)
npx @orchestra-research/ai-research-skills
# 직접 명령어
...

Claude Code 마켓플레이스 (대안)

Claude Code CLI를 사용하여 스킬 카테고리를 직접 설치할 수 있습니다:

# 마켓플레이스 추가
/plugin marketplace add orchestra-research/AI-research-SKILLs
# 카테고리별 설치 (23개 카테고리 사용 가능)
...

카테고리	기술 (Skills)	포함된 내용
Autoresearch	1	자율 연구 오케스트레이션 (Autonomous research orchestration) — 전체 라이프사이클을 관리하고 다른 모든 기술로 라우팅하는 중심 계층
Ideation	2	연구 브레인스토밍 (Research Brainstorming), 창의적 사고 (Creative Thinking)
ML Paper Writing	2	머신러닝 (ML) 논문 작성 (LaTeX 템플릿, 인용 검증), 학술용 플로팅 (Academic Plotting)
Model Architecture	5	LitGPT, Mamba, NanoGPT, RWKV, TorchTitan
...

98개 전체 기술 상세 보기

Autoresearch- 이중 루프 아키텍처(내부 최적화 + 외부 합성)를 사용하는 자율 연구 오케스트레이션 (Autonomous research orchestration). 문헌 조사부터 논문 작성까지 전체 라이프사이클을 관리하며, 모든 도메인 특화 기술로 라우팅합니다. 지속적인 운영을 위해 Claude Code /loop 및 OpenClaw 하트비트 (heartbeat)를 지원합니다 (390행 + 참조 3개)

LitGPT- 프로덕션 수준의 학습 레시피를 포함한 Lightning AI의 20개 이상의 깔끔한 LLM 구현체 (462행 + 참조 4개)

Mamba- Transformers보다 5배 빠른 $O(n)$ 복잡도의 상태 공간 모델 (State-space models) (253행 + 참조 3개)

RWKV- RNN+Transformer 하이브리드, 무한 컨텍스트, Linux Foundation 프로젝트 (253행 + 참조 3개)

NanoGPT- Karpathy가 작성한 약 300행 규모의 교육용 GPT (283행 + 참조 3개)

TorchTitan- 4D 병렬 처리를 통한 Llama 3.1용 PyTorch 네이티브 분산 학습 (Distributed training)

HuggingFace Tokenizers- Rust 기반, 20초 미만/GB, BPE/WordPiece/Unigram 알고리즘 (486행 + 참조 4개)

SentencePiece- 언어 독립적, 초당 5만 문장 처리, T5/ALBERT에서 사용됨 (228행 + 참조 2개)

Axolotl- 100개 이상의 모델을 지원하는 YAML 기반 미세 조정 (Fine-tuning) (156행 + 참조 4개)

LLaMA-Factory- WebUI 기반의 노코드 (no-code) 미세 조정 (78행 + 참조 5개)

Unsloth- 2배 빠른 QLoRA 미세 조정 (75행 + 참조 4개)

PEFT- LoRA, QLoRA, DoRA 등 25개 이상의 방법을 사용하는 매개변수 효율적 미세 조정 (Parameter-efficient fine-tuning) (431행 + 참조 2개)

TransformerLens- HookPoints 및 활성화 캐싱 (activation caching)을 활용한 Neel Nanda의 기계론적 해석 가능성 (mech interp) 라이브러리 (346행 + 참조 3개)
SAELens- 특징 발견 (feature discovery)을 위한 희소 오토인코더 (Sparse Autoencoder) 학습 및 분석 (386행 + 참조 3개)
pyvene- 선언적 설정 (declarative configs)을 사용하는 Stanford의 인과적 개입 (causal intervention) 라이브러리 (473행 + 참조 3개)
nnsight- NDIF를 통한 원격 해석 가능성 (remote interpretability), 70B 이상의 모델에서 실험 실행 가능 (436행 + 참조 3개)

Ray Data- 분산 머신러닝 (ML) 데이터 처리, 스트리밍 실행, GPU 지원 (318행 + 참조 2개)
NeMo Curator- GPU 가속 데이터 큐레이션, 16배 빠른 중복 제거 (deduplication) (375행 + 참조 2개)

TRL Fine-Tuning- 트랜스포머 강화학습 (Transformer Reinforcement Learning) (447행 + 참조 4개)
GRPO-RL-Training(TRL) - TRL을 활용한 그룹 상대 정책 최적화 (Group Relative Policy Optimization) (569행, 골드 표준 (gold standard))
OpenRLHF- Ray + vLLM을 사용하는 전체 RLHF 파이프라인 (241행 + 참조 4개)
SimPO- 참조 모델 (reference model)이 필요 없는 단순 선호도 최적화 (Simple Preference Optimization) (211행 + 참조 3개)
verl- ByteDance의 HybridFlow RL 프레임워크, FSDP/Megatron + vLLM/SGLang 백엔드 지원 (389행 + 참조 2개)
slime- GLM-4.x 모델을 구동하는 THUDM의 Megatron+SGLang 프레임워크 (464행 + 참조 2개)
miles- MoE 학습을 위한 FP8, INT4, 추측적 RL (speculative RL)을 포함한 slime의 엔터프라이즈 포크 (315행 + 참조 2개)
torchforge- Monarch+TorchTitan+vLLM을 사용하는 Meta의 PyTorch 네이티브 RL (380행 + 참조 2개)

Constitutional AI- 원칙을 통한 AI 주도 자기 개선 (self-improvement) (282행)
LlamaGuard- LLM 입출력을 위한 안전 분류기 (safety classifier) (329행)
NeMo Guardrails- Colang을 사용하는 프로그래밍 가능한 가드레일 (289행)
Prompt Guard- Meta의 86M 프롬프트 주입 (prompt injection) 및 탈옥 (jailbreak) 탐지기, 99% 이상의 TPR, 2ms 미만의 GPU 연산 (313행)

Megatron-Core- H100에서 47%의 MFU로 2B-462B 파라미터 모델을 학습하기 위한 NVIDIA의 프레임워크 (359행 + 참조 4개)
DeepSpeed- Microsoft의 ZeRO 최적화 (137행 + 참조 9개)
PyTorch FSDP2- fully_shard를 사용하는 완전 샤딩 데이터 병렬 (Fully Sharded Data Parallel) v2

and DTensor (231 lines + 12 refs)Accelerate- HuggingFace의 4줄 분량 분산 학습 (Distributed Training) API (324 lines + 3 refs)PyTorch Lightning- Trainer 클래스를 포함한 고수준 학습 프레임워크 (High-level training framework) (339 lines + 3 refs)Ray Train- 멀티 노드 오케스트레이션 (Multi-node orchestration) 및 하이퍼파라미터 튜닝 (Hyperparameter tuning) (399 lines + 1 ref)

Flash Attention- 메모리 효율성을 갖춘 2-4배 빠른 어텐션 (Attention) (359 lines + 2 refs)bitsandbytes- 50-75% 메모리 절감을 위한 8-bit/4-bit 양자화 (Quantization) (403 lines + 3 refs)GPTQ- 4-bit 사후 학습 양자화 (Post-training quantization), 4배 메모리 절감, 정확도 손실 2% 미만 (443 lines + 3 refs)AWQ- 활성화 인식 가중치 양자화 (Activation-aware weight quantization), 최소한의 정확도 손실을 가진 4-bit (310 lines + 2 refs)HQQ- Half-Quadratic Quantization, 보정 데이터 (Calibration data) 불필요, 멀티 백엔드 지원 (370 lines + 2 refs)GGUF- llama.cpp 양자화 형식, K-quant 방식, CPU/Metal 추론 (Inference) (380 lines + 2 refs)

lm-evaluation-harness- 60개 이상의 태스크에 걸쳐 LLM을 벤치마킹하는 EleutherAI의 표준 (482 lines + 4 refs)BigCode Evaluation Harness- HumanEval, MBPP, MultiPL-E, pass@k 지표를 사용한 코드 모델 벤치마킹 (406 lines + 3 refs)NeMo Evaluator- 18개 이상의 하네스 (Harnesses)에 걸쳐 100개 이상의 벤치마크를 멀티 백엔드 실행으로 제공하는 NVIDIA의 엔터프라이즈 플랫폼 (454 lines + 4 refs)

Modal- Python 네이티브 API를 갖춘 서버리스 GPU 클라우드, T4-H200 온디맨드 (On-demand) 제공 (342 lines + 2 refs)SkyPilot- 스팟 회복 (Spot recovery) 기능을 갖춘 20개 이상의 제공업체 간 멀티 클라우드 오케스트레이션 (390 lines + 2 refs)Lambda Labs- H100/A100을 제공하는 예약형/온디맨드 GPU 클라우드, 지속성 파일 시스템 (Persistent filesystems) 지원 (390 lines + 2 refs)

vLLM- PagedAttention을 통한 고처리량 (High-throughput) LLM 서빙 (356 lines + 4 refs, 프로덕션 준비 완료 (production-ready))TensorRT-LLM- NVIDIA의 가장 빠른 추론, 24k tok/s, FP8/INT4 양자화 (180 lines + 3 refs)llama.cpp- CPU/Apple Silicon 추론, GGUF 양자화 (251 lines + 3 refs)SGLang- RadixAttention을 통한 구조화된 생성 (Structured generation), 에이전트(Agents)를 위해 5-10배 더 빠름 (435 lines + 3 refs)

LangChain- 가장 인기 있는 에이전트 (Agent) 프레임워크, 500개 이상의 통합 기능, ReAct 패턴 (658 lines + 3 refs, production-ready (운영 환경 적용 가능))
LlamaIndex- LLM 애플리케이션을 위한 데이터 프레임워크, 300개 이상의 커넥터, RAG (검색 증강 생성) 중심 (535 lines + 3 refs)
CrewAI- 멀티 에이전트 오케스트레이션 (Multi-agent orchestration), 역할 기반 협업, 자율적 워크플로우 (498 lines + 3 refs)
AutoGPT- 자율형 AI 에이전트 플랫폼, 시각적 워크플로우 빌더, 연속 실행 (400 lines + 2 refs)

Chroma- 오픈 소스 임베딩 (Embedding) 데이터베이스, 로컬/클라우드 지원, 24k stars (385 lines + 1 ref)
FAISS- Facebook의 유사도 검색 (Similarity search), 십억 단위 규모, GPU 가속 (295 lines)
Sentence Transformers- 5000개 이상의 임베딩 (Embedding) 모델, 다국어 지원, 15k stars (370 lines)
Pinecone- 관리형 벡터 데이터베이스 (Vector database), 자동 확장, 100ms 미만의 지연 시간 (410 lines)
Qdrant- 고성능 벡터 검색, Rust 기반, 필터링을 포함한 하이브리드 검색 (493 lines + 2 refs)

CLIP- OpenAI의 시각-언어 모델 (Vision-language model), 제로샷 분류 (Zero-shot classification), 25k stars (320 lines)
Whisper- 강력한 음성 인식, 99개 언어 지원, 73k stars (395 lines)
LLaVA- 시각-언어 어시스턴트, 이미지 채팅, GPT-4V 수준 (360 lines)
Stable Diffusion- HuggingFace Diffusers를 통한 텍스트-이미지 생성, SDXL, ControlNet (380 lines + 2 refs)
Segment Anything- 점/박스를 이용한 제로샷 이미지 분할 (Image segmentation)을 위한 Meta의 SAM (500 lines + 2 refs)
BLIP-2- Q-Former을 이용한 시각-언어 사전 학습 (Vision-language pretraining), 이미지 캡셔닝 (Image captioning), VQA (Visual Question Answering) (500 lines + 2 refs)
AudioCraft- 텍스트-음악 및 텍스트-사운드 생성을 위한 Meta의 MusicGen/AudioGen (470 lines + 2 refs)

DSPy- 옵티마이저 (Optimizer)를 이용한 선언적 프롬프트 프로그래밍 (Declarative prompt programming), Stanford NLP, 22k stars (438 lines + 3 refs)
Instructor- Pydantic 검증을 통한 구조화된 LLM 출력, 15k stars (726 lines + 3 refs)
Guidance- 정규 표현식/문법을 이용한 제약 조건부 생성 (Constrained generation), Microsoft Research, 18k stars (485 lines + 3 refs)
Outlines- 유한 상태 기계 (FSM)를 이용한 구조화된 텍스트, 제로 오버헤드 (Zero-overhead), 8k stars (601 lines + 3 refs)

Weights & Biases- 실험 추적 (Experiment tracking), 스윕 (sweeps), 아티팩트 (artifacts), 모델 레지스트리 (model registry) (427 lines + 3 refs)
MLflow- 모델 레지스트리 (Model registry), 추적 (tracking), 배포 (deployment), 자동 로깅 (autologging) (514 lines + 3 refs)
TensorBoard- 시각화 (Visualization), 프로파일링 (profiling), 임베딩 (embeddings), 스칼라/이미지 (scalars/images) (538 lines + 3 refs)

LangSmith- AI 애플리케이션을 위한 LLM 관측성 (observability), 트레이싱 (tracing), 평가 (evaluation), 모니터링 (monitoring) (422 lines + 2 refs)
Phoenix- OpenTelemetry 트레이싱 (tracing) 및 LLM 평가 (evaluation)를 지원하는 오픈 소스 AI 관측성 (observability) (380 lines + 2 refs)

MoE Training- DeepSpeed를 이용한 전문가 혼합 (Mixture of Experts) 학습, Mixtral 8x7B, 비용 5배 절감 (515 lines + 3 refs)
Model Merging- mergekit을 사용하여 TIES, DARE, SLERP로 모델 결합 (528 lines + 3 refs)
Long Context- RoPE, YaRN, ALiBi를 통한 컨텍스트 창 (context windows) 확장, 32k-128k 토큰 (624 lines + 3 refs)
Speculative Decoding- Medusa, Lookahead를 통한 1.5-3.6배 빠른 추론 (inference) (379 lines)
Knowledge Distillation- MiniLLM 및 온도 스케일링 (temperature scaling)을 통한 모델 압축 70B→7B (424 lines)
Model Pruning- Wanda, SparseGPT를 통한 50% 희소성 (sparsity) 구현, 정확도 손실 1% 미만 (417 lines)

ML Paper Writing- LaTeX 템플릿, 인용 검증 (citation verification) 및 작성 베스트 프랙티스를 활용하여 NeurIPS, ICML, ICLR, ACL, AAAI, COLM 제출용 논문 작성 (532 lines + 5 refs)
Academic Plotting- ML 논문을 위한 출판 품질의 도표 생성: Gemini AI를 통한 아키텍처 다이어그램 및 학회별 스타일링이 적용된 matplotlib/seaborn 기반 데이터 중심 차트 (479 lines + 3 refs)

Insights

AI-Research-SKILLs: 아이디어 구상부터 논문 작성까지 AI 에이전트의 자율적 AI 연구를 가능하게 하는 가장 포괄적인 오픈 소스

요약

핵심 포인트

댓글

파라미터 수 측정을 멈춰라: Fable 5의 진정한 힘이 오케스트레이션 루프(Orchestration Loop)에 있는 이유

GPT-5.5 Codex: 추론 토큰 클러스터링(Reasoning-Token Clustering)이 성능을 저하시키고 있는가?

Claude Sonnet 5: 팀을 위한 숨겨진 비용 문제

skUnit을 사용하여 .NET에서 AI 에이전트 테스트하기: 단계별 가이드

파라미터 수 측정을 멈춰라: Fable 5의 진정한 힘이 오케스트레이션 루프(Orchestration Loop)에 있는 이유

GPT-5.5 Codex: 추론 토큰 클러스터링(Reasoning-Token Clustering)이 성능을 저하시키고 있는가?

Claude Sonnet 5: 팀을 위한 숨겨진 비용 문제

skUnit을 사용하여 .NET에서 AI 에이전트 테스트하기: 단계별 가이드