aiming-lab/AutoResearchClaw

OpenClaw와 대화해보세요: "X를 연구해줘" → 완료.

📄 저희의 논문이 arXiv에 게시되었습니다 — 와서 읽어보세요! AutoResearchClaw: 인간-AI 협업을 통한 자기 강화형 자율 연구 (Self-Reinforcing Autonomous Research with Human-AI Collaboration)

🇨🇳 中文 · 🇯🇵 日本語 · 🇰🇷 한국어 · 🇫🇷 Français · 🇩🇪 Deutsch · 🇪🇸 Español · 🇧🇷 Português · 🇷🇺 Русский · 🇸🇦 العربية

🏆 논문 쇼케이스 (Paper Showcase) · 🧑

|
🏆 생성된 논문 쇼케이스: 수학, 통계학, 생물학, 컴퓨팅, NLP (자연어 처리), RL (강화학습), 비전 (Vision), 강건성 (Robustness) 등 8개 분야에 걸친 8개의 논문이 완전 자율 방식 또는 인간 참여형 (Human-in-the-Loop) 코파일럿 (Co-pilot) 가이드를 통해 생성되었습니다. |

🧪 테스터를 모집합니다! 여러분의 연구 아이디어로 — 어떤 분야든 상관없습니다 — 파이프라인 (Pipeline)을 테스트해보고 의견을 들려주세요. 여러분의 피드백이 다음 버전을 직접적으로 형성합니다. → 테스트 가이드 | → 中文测试指南 | → 日本語テストガイド

[2026/05/19]
v0.5.0—멀티 도메인 실험 에이전트 (Multi-Domain Experiment Agents) + ARC-Bench— 두 가지 주요 업데이트.
(1) 도메인 전문가 실행 에이전트 (Domain-specialist execution agents): 실험 단계 (Stage 10–13)가 이제 기본 ML 샌드박스 (Sandbox)를 넘어 분야별 전문가 에이전트로 라우팅됩니다 — 고에너지 물리학 (High-energy physics) (ColliderAgent: Magnus 클라우드를 통한 Lagrangian → FeynRules → MadGraph5 → Delphes), 생물학 (Biology) (COBRApy 게놈 규모 대사 모델링), 그리고 통계학 (Statistics) (시뮬레이션 연구 에이전트)가 포함되며, 화학/재료 분야를 다루는 범용 Docker 실행기가 포함됩니다. 파이프라인은 연구 도메인에 따라 적절한 실행기를 자동으로 선택합니다.
(2) ARC-Bench: **ML (25), HEP (10), 양자 (10), 생물학 (7), 통계학 (3)**을 아우르는 55개 주제의 개방형 자율 연구 벤치마크 (Benchmark) — 각 주제는 매니페스트 (연구 질문 + 조건 + 지표 + 데이터셋)와 등급 점수 산정을 위한 루브릭 (Rubric)을 포함하며, 모두 experiments/arc_bench/ 아래에 있습니다.

→ 도메인 통합 가이드 (Domain Integration Guide)

[2026/04/01]
v0.4.0—인간 참여형 (Human-in-the-Loop) 코파일럿 시스템— AutoResearchClaw는 더 이상 순수하게 자율적이지 않습니다. 새로운 HITL 시스템이 6가지 개입 모드 (full-auto, gate-only, checkpoint, step-by-step, co-pilot, custom)를 추가합니다.

), 단계별 정책 (per-stage policies), 그리고 심층적인 인간-AI 협업 (deep human-AI collaboration)을 포함합니다. 다음 기능들이 포함되어 있습니다: 가설 공동 생성(hypothesis co-creation)을 위한 아이디어 워크숍 (Idea Workshop), 실험 설계 검토를 위한 베이스라인 네비게이터 (Baseline Navigator), 협업 초안 작성을 위한 논문 공동 작성기 (Paper Co-Writer), SmartPause (신뢰도 기반의 동적 개입), ALHF 개입 학습 (ALHF intervention learning), 환각 방지 주장 검증 (anti-hallucination claim verification), 비용 예산 가드레일 (cost budget guardrails), 병렬적 가설 탐색을 위한 파이프라인 분기 (pipeline branching), 그리고 CLI 명령어 (attach, status, approve, reject, guide).→ 전체 HITL 가이드****[2026/03/30]****유연한 기술 로딩 (Flexible Skill Loading)— AutoResearchClaw는 이제 연구 경험을 더욱 향상시키기 위해 모든 학문 분야의 오픈 소스 및 커스텀 기술 (skills) 로딩을 지원합니다. 과학적 글쓰기, 실험 설계, 화학, 생물학 등을 아우르는 20개의 사전 로드된 기술이 즉시 사용 가능한 참조용으로 포함되어 있으며, 여기에는 커뮤니티에서 기여한 A-Evolve 에이전트 진화 기술 (agentic evolution skill)이 포함됩니다. researchclaw skills install을 통해 직접 로드하거나 .claude/skills/ 폴더에 SKILL.md 파일을 넣으세요. 기술 라이브러리 (Skills Library)를 참조하십시오.**[2026/03/22]**v0.3.2 —크로스 플랫폼 지원 + 주요 안정성 향상— AutoResearchClaw는 이제 모든 ACP 호환 에이전트 백엔드 (Claude Code, Codex CLI, Copilot CLI, Gemini CLI, Kimi CLI)에서 실행되며, OpenClaw 브릿지를 통해 메시징 플랫폼 (Discord, Telegram, Lark, WeChat)을 지원합니다. 새로운 CLI-에이전트 코드 생성 백엔드는 예산 제어 및 타임아웃 관리를 통해 단계 10 및 13을 외부 CLI 에이전트에 위임합니다. 또한 허위 정보 방지 시스템 (VerifiedRegistry + 실험 진단 및 복구 루프), 100개 이상의 버그 수정, 모듈형 실행기 리팩토링 (modular executor refactoring), --resume 자동 감지, LLM 재시도 강화 (LLM retry hardening), 그리고 커뮤니티 보고 수정 사항이 포함되었습니다.

이전 릴리스

**[03/18/2026]**v0.3.1 —OpenCode Beast Mode + 커뮤니티 기여 (Community Contributions)— 새로운 "Beast Mode"가 자동 복잡도 점수 산정(complexity scoring) 및 우아한 폴백(graceful fallback) 기능을 통해 복잡한 코드 생성을 OpenCode로 라우팅합니다. Novita AI 프로바이더 지원, 스레드 안전성 강화 (thread-safety hardening), LLM 출력 파싱 견고성 개선, 그리고 커뮤니티 PR 및 내부 감사에서 발견된 20개 이상의 버그 수정이 포함되었습니다.

**[03/17/2026]**v0.3.0 —MetaClaw 통합 (MetaClaw Integration)— AutoResearchClaw가 이제 MetaClaw 교차 실행 학습 (cross-run learning)을 지원합니다: 파이프라인 실패 → 구조화된 교훈 (structured lessons) → 재사용 가능한 기술 (reusable skills)로 이어지며, 이는 모든 23개 단계에 주입됩니다. 통제된 실험에서 견고성 (robustness)이 +18.3% 향상되었습니다. 선택 사항 (metaclaw_bridge.enabled: true)이며, 완전히 하위 호환됩니다 (backward-compatible). 통합 가이드를 참조하세요.

**[03/16/2026]**v0.2.0 — 세 가지 멀티 에이전트 서브시스템 (CodeAgent, BenchmarkAgent, FigureAgent), 네트워크 정책 인식 실행 (network-policy-aware execution) 기능이 강화된 Docker 샌드박스, 4라운드 논문 품질 감사 (AI-slop 탐지, 7차원 리뷰 점수 산정, NeurIPS 체크리스트), 그리고 프로덕션 실행에서 발견된 15개 이상의 버그 수정이 포함되었습니다.

**[03/15/2026]**v0.1.0 — AutoResearchClaw를 출시합니다: 단 하나의 연구 아이디어를 컨퍼런스 제출 가능한 논문으로 변환하는 완전 자율형 23단계 연구 파이프라인입니다. 인간의 개입이 필요하지 않습니다.

# 완전 자율형 — 인간의 개입 없음
pip install -e . && researchclaw setup && researchclaw init && researchclaw run --topic "Your research idea here" --auto-approve
# 코파일럿 (Co-Pilot) 모드 — 주요 결정 지점에서 AI와 협업
...

당신이 생각하면, AutoResearchClaw가 작성합니다. 당신은 핵심 결정을 가이드합니다.

연구 주제를 입력하세요 — OpenAlex, Semantic Scholar, arXiv의 실제 문헌, 하드웨어 인식 샌드박스 실험 (GPU/MPS/CPU 자동 감지), 통계 분석, 멀티 에이전트 피어 리뷰 (peer review), 그리고 NeurIPS/ICML/ICLR을 타겟팅하는 컨퍼런스 준비 완료된 LaTeX 결과물을 받아보세요. 완전히 자율적으로 실행하거나, 코파일럿 (Co-Pilot) 모드를 사용하여 AI가 중요한 결정 지점에서 가이드를 받도록 하세요 — 연구 방향을 선택하고, 실험 설계를 검토하며, 논문을 공동 집필할 수 있습니다. 환각된 참고문헌 (hallucinated references)은 없습니다.

이 파이프라인은 엔드 투 엔드 (end-to-end) — 완전 자율 방식 또는 인간 참여형 (human-in-the-loop) 협업 방식으로 실행됩니다. 실험이 실패하면 스스로 치유 (self-heals)합니다. 가설이 성립하지 않으면 방향을 전환 (pivots)합니다. 인용이 가짜라면 이를 제거합니다. 사용자가 제어하기를 원하면 일시 중지하고 경청합니다.

🌍 어디서든 실행하세요. AutoResearchClaw는 단일 플랫폼에 종속되지 않습니다. CLI를 통해 단독으로 사용하거나, OpenClaw에 플러그인으로 연결하거나, 모든 ACP 호환 에이전트 — 🤖 Claude Code, 💻 Codex CLI, 🐙 Copilot CLI, ♊ Gemini CLI, 🌙 Kimi CLI 등 무엇이든 연결하여 사용할 수 있습니다. 또한 OpenClaw는 메시징 플랫폼과 연결되므로, 💬 Discord에서 전체 연구 실행을 시작할 수 있습니다.

# 1. Clone & install
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
...

출력물 → artifacts/rc-YYYYMMDD-HHMMSS-<hash>/deliverables/

— 컴파일 가능한 LaTeX, BibTeX, 실험 코드, 차트.

📝 최소 필수 설정 (Minimum required config)

project:
name: "my-research"
research:
...

기능 (Capability)	작동 방식 (How It Works)
🧑	6가지 개입 모드 — 완전 자율 모드부터 단계별 모드까지 제공합니다. 중요한 결정(가설 설정, 베이스라인 설정, 논문 작성) 시 AI를 가이드하거나 자유롭게 실행하도록 둘 수 있습니다. SmartPause 기능은 인간의 입력이 도움이 될 시점을 자동으로 감지합니다.
🔄 PIVOT / REFINE 루프	15단계에서 자율적으로 결정합니다: 진행(PROCEED), 개선(REFINE, 파라미터 미세 조정), 또는 피벗(PIVOT, 새로운 방향 설정). 생성된 결과물(Artifacts)은 자동으로 버전이 관리됩니다.
🤖 멀티 에이전트 토론 (Multi-Agent Debate)	가설 생성, 결과 분석, 동료 검토(Peer review) 단계마다 각각 구조화된 다각도 토론을 수행합니다.
🧬 자기 학습 (Self-Learning)	실행 시마다 교훈(결정 근거, 실행 중 경고, 지표 이상 징후)을 추출하며, 30일간의 시간 경과에 따른 감쇠(Time-decay)가 적용됩니다. 향후 실행 시 과거의 실수를 통해 학습합니다.
📚 지식 베이스 (Knowledge Base)	모든 실행은 6가지 카테고리(결정, 실험, 발견, 문헌, 질문, 검토)에 걸쳐 구조화된 지식 베이스(KB)를 구축합니다.
🛡️ Sentinel Watchdog	백그라운드 품질 모니터링: NaN/Inf 감지, 논문 근거 일관성, 인용 관련성 점수 산정, 허위 작성 방지 가드(Anti-fabrication guard)를 수행합니다.
🔍 주장 검증 (Claim Verification)	인라인 사실 확인: AI가 생성한 텍스트에서 주장을 추출하고 수집된 문헌과 교차 참조합니다. 근거 없는 인용이나 조작된 숫자에 플래그를 표시합니다.
🌿 브랜치 탐색 (Branch Exploration)	파이프라인을 포크(Fork)하여 여러 연구 방향을 동시에 탐색하고, 결과를 나란히 비교하며, 가장 좋은 경로를 병합(Merge)할 수 있습니다.

AutoResearchClaw는 OpenClaw 호환 서비스입니다. OpenClaw에 설치하여 단 한 번의 메시지로 자율 연구를 시작하거나, CLI, Claude Code 또는 모든 AI 코딩 어시스턴트를 통해 단독으로 사용할 수 있습니다.

이미 AI 어시스턴트로 OpenClaw를 사용 중이라면:

1️⃣ OpenClaw에 GitHub 리포지토리 URL을 공유합니다.
2️⃣ OpenClaw가 RESEARCHCLAW_AGENTS.md를 자동으로 읽고 파이프라인을 이해합니다.
3️⃣ "[당신의 주제]에 대해 연구해줘"라고 말합니다.
...

그게 전부입니다. OpenClaw가 git clone, pip install, 설정 구성 및 파이프라인 실행을 자동으로 처리합니다. 당신은 그저 채팅만 하면 됩니다.

💡 내부 동작 원리 (What happens under the hood)

OpenClaw는 RESEARCHCLAW_AGENTS.md를 읽습니다.

→ 연구 오케스트레이터 (research orchestrator) 역할을 학습합니다 - OpenClaw가 README.md를 읽습니다.

→ 설치 및 파이프라인 (pipeline) 구조를 이해합니다 - OpenClaw가 config.researchclaw.example.yaml을 복사합니다.

→ config.yaml 생성

LLM API 키를 요청합니다 (또는 환경 변수를 사용합니다).
pip install -e .를 실행합니다.

researchclaw run --topic "..." --auto-approve

논문, LaTeX, 실험 결과 및 인용 문헌 (citations)을 반환합니다.

더 깊은 통합을 위해, AutoResearchClaw는 6가지 선택적 기능을 갖춘 **브릿지 어댑터 시스템 (bridge adapter system)**을 포함합니다:

# config.arc.yaml
openclaw_bridge:
use_cron: true # ⏰ 예약된 연구 실행 (Scheduled research runs)
...

각 플래그는 타입화된 어댑터 프로토콜 (typed adapter protocol)을 활성화합니다. OpenClaw가 이러한 기능들을 제공하면, 어댑터들은 코드 변경 없이 이를 소비합니다. 자세한 내용은 docs/integration-guide.md를 참조하세요.

AutoResearchClaw는 **모든 ACP 호환 코딩 에이전트 (ACP-compatible coding agent)**를 LLM 백엔드로 사용할 수 있으며, 별도의 API 키가 필요하지 않습니다. 에이전트는 acpx를 통해 통신하며, 23개 파이프라인 단계 전체에 걸쳐 단일 지속 세션 (single persistent session)을 유지합니다.

에이전트 (Agent)	명령어 (Command)	비고 (Notes)
Claude Code	`claude`	Anthropic
Codex CLI	`codex`	OpenAI
Copilot CLI	`gh`	GitHub
Gemini CLI	`gemini`
OpenCode	`opencode`	SST
Kimi CLI	`kimi`	Moonshot

# config.yaml — ACP 예시
llm:
provider: "acp"
...

# 바로 실행하세요 — 에이전트가 자체 자격 증명을 사용합니다
researchclaw run --config config.yaml --topic "Your research idea" --auto-approve

방법 (Method)	방식 (How)
독립형 CLI (Standalone CLI)	`researchclaw run --topic "..." --auto-approve` (자율형) 또는 `--mode co-pilot` (협업형)
Python API	`from researchclaw.pipeline import Runner; Runner(config).run()`
Claude Code	`RESEARCHCLAW_CLAUDE.md`를 읽습니다 — "[topic]에 대해 연구를 실행해줘"라고 말하기만 하면 됩니다
Copilot CLI	`llm.acp.agent: "gh"` 설정과 함께 `researchclaw run --topic "..."` 실행
OpenCode	`.claude/skills/`를 읽습니다 — 동일한 자연어 인터페이스 사용
모든 AI CLI	`RESEARCHCLAW_AGENTS.md`를 컨텍스트로 제공 → 에이전트가 자동으로 부트스트랩 (auto-bootstraps)

Phase A: 연구 범위 설정 (Research Scoping) Phase E: 실험 실행 (Experiment Execution)

TOPIC_INIT (주제 초기화)
PROBLEM_DECOMPOSE (문제 분해)
EXPERIMENT_RUN (실험 실행)
ITERATIVE_REFINE (반복적 개선) ← 자가 치유 (self-healing)
...

게이트 단계(Gate stages: 5, 9, 20)는 인간의 승인을 위해 일시 중지되거나 --auto-approve 옵션으로 자동 승인됩니다.

거부될 경우, 파이프라인은 롤백 (roll back)됩니다.

코파일럿 모드 (--mode co-pilot): 단계 7-8 (아이디어 워크숍, Idea Workshop), 단계 9 (베이스라인 네비게이터, Baseline Navigator), 그리고 단계 16-17 (논문 공동 작성, Paper Co-Writer)에서 심층적인 인간-AI 협업을 수행합니다. 다른 단계들은 SmartPause 모니터링과 함께 자동으로 실행됩니다.

의사결정 루프 (Decision loops): 단계 15는 REFINE (→ 단계 13) 또는 PIVOT (→ 단계 8)을 트리거할 수 있으며, 아티팩트 (artifact) 버전 관리가 자동으로 이루어집니다.

Insights

aiming-lab/AutoResearchClaw

요약

핵심 포인트

이전 릴리스

📝 최소 필수 설정 (Minimum required config)

💡 내부 동작 원리 (What happens under the hood)

📋 각 단계별 역할

댓글

QA 엔지니어가 바이브 코딩(Vibe Coding)으로 JSTQB Advanced Level 시험 대비 사이트를 만들어 보았다

Claude Code × OpenRouter :free 모델로 API 비용을 거의 제로로 만드는 5가지 설정 패턴

KAT Coder 2.5 dev: 꼭 한번 사용해 보세요!

다중 관할권 준수 하의 지속 가능한 양식 모니터링 시스템을 위한 확률적 그래프 신경 추론 (Probabilistic Graph Neural

Claude Code × OpenRouter :free 모델로 API 비용을 거의 제로로 만드는 5가지 설정 패턴

KAT Coder 2.5 dev: 꼭 한번 사용해 보세요!

다중 관할권 준수 하의 지속 가능한 양식 모니터링 시스템을 위한 확률적 그래프 신경 추론 (Probabilistic Graph Neural