본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 05. 14. 20:23

wanshuiyin/Auto-claude-code-research-in-sleep

요약

ARIS-Code는 AI 에이전트 기반의 기술 연구 워크플로우를 제공하는 독립형 CLI 도구입니다. 이 도구는 Claude Code, Cursor 등과 유사하게 사용되지만, LLM 소비에 최적화된 구조로 설계되었습니다. 최근 버전 업데이트에서는 시스템 시간 사용, 추론 모델 지원 강화, 그리고 다양한 AI 제공자(OpenAI 호환 포함)와의 통합 및 안정성 개선이 이루어졌습니다. 사용자는 이 CLI를 통해 연구 계획 수립, 지속적인 메모리 관리, 자기 진화 최적화 등의 고급 기능을 활용하여 마치 '잠든 동안'도 자율적으로 논문 작성 및 기술 연구 과정을 진행할 수 있습니다.

핵심 포인트

  • AI 에이전트 기반의 구조화된 기술 연구 워크플로우를 제공하는 독립형 CLI 도구입니다 (ARIS-Code).
  • 최신 버전에서는 시스템 시간 사용을 보장하고, '미래 데이터'로 오인하던 문제를 해결했습니다.
  • GPT-5.5 등 고급 추론 모델에 대한 지원이 강화되었으며, `reasoning_effort='xhigh'` 설정을 통해 성능을 최적화할 수 있습니다.
  • Anthropic 및 OpenAI 호환 제공자(Provider)를 포함하여 다양한 LLM 환경과의 통합성이 높습니다.
  • 연구 계획 수립(`/plan`), 지속적인 메모리 관리, 자기 진화(`meta-optimize`) 등 연구 전반의 라이프사이클 관리가 가능합니다.

💡 Claude Code / Cursor / Trae에서 기술 기반 워크플로우(skill-based workflow)로 ARIS를 사용하거나, 독립형 CLI(standalone CLI)로 전체 경험을 누려보세요 — 원하는 방식으로 즐기세요!

🤖 AI 에이전트 (AI agents): AGENT_GUIDE.md를 읽어보세요.

대신 — 인간의 브라우징이 아닌 LLM 소비를 위해 구조화되었습니다.

🔥 ARIS-Code CLI — 독립 설치 버전 · English | ⬇️ Download

📰

ARIS-Code v0.4.6(2026-05-14) —🚨 두 가지 오래된 잠재적 버그 수정: (1) PermissionMode::Prompt 관련 파생된 Ord 버그로 인해 모든 도구가 조용히 허용되던 문제를 수정하여, 이제 프롬프터(prompter)를 통해 올바르게 라우팅됩니다; (2) 시스템 프롬프트에 current_date = "2026-03-31"이 하드코딩되어 모델이 컷오프(cutoff) 이후의 실제 데이터(사용자의 arXiv 논문 포함)를 "미래 데이터 / 프롬프트 인젝션 (prompt injection)"으로 거부하던 문제를 수정 — 이제 실제 시스템 시간을 사용합니다. 또한 동적 /models 탐색 기능이 포함된 맞춤형 OpenAI 호환 제공자(/setup 옵션 11)가 추가되었습니다 — @Anduin9527 (#221 + #222)에게 감사를 표합니다.📰

ARIS-Code v0.4.5(2026-05-13) — 퍼스트 클래스 추론 모델(reasoning-model) 지원 — 엔드 투 엔드 사고 내용 블록 (fixes #161) + GPT-5.5 / o1 / o3 / o4 / DeepSeek-thinking을 위한 reasoning_effort='xhigh'가 실제로 적용됨 | DeepSeek V4 Pro + Xiaomi MiMo + Qwen 3.6 + Doubaoin /setup (options 7-10) | Claude Code 객체 스타일 훅 파서 (object-style hooks parser) | 기본 모델이 Claude Opus 4.7 + GPT-5.5로 상향됨 | REPL 입력 강화: 다중 행 줄바꿈 / Cmd+V 붙여넣기 / 줄바꿈 경계에서의 CJK(한중일) 지원 | GitHub Actions CI 추가 | Credits: @GO-player-hhy (#186), @Jxy-yxJ (#171), @GetIT-Sunday (#216 partial)

이전 버전

v0.4.4(2026-04-20) — 설정 UX + 리뷰어 라우팅 수정(resolves #158, #162) | /setup에서 Anthropic + 커스텀 URL 사용 시 더 이상 Bearer를 강제하지 않음 | 제공자 인지 프록시 URL 힌트 | 제공자 전환 시 오래된 상태(stale state)가 더 이상 유출되지 않음 | LlmReview 스마트 폴백 (smart fallback)

v0.4.3(2026-04-17) — 제3자 Anthropic 호환 프록시 지원 (Bedrock 등) | 프록시에서 거부하는 베타 플래그 건너뛰기 | anthropic 제공자를 위한 커스텀 베이스 URL(base URL) 전파 | Credit @screw-44

v0.4.2(2026-04-17) — Auto-compaction 손상 수정 | OpenAI 호환 실행기(executors)에서 Compaction 요약 보존 | Shell에서 제공된 API 키가 실행 시 더 이상 삭제되지 않음

v0.4.1(2026-04-15) — 계획 모드 (/plan) | 협력적 Ctrl+C 인터럽트 (interrupt) | 자동 재시도 (429/5xx/network) | Research Wiki📚 (지속 가능한 지식 베이스) | 자기 진화 (Self-Evolution🧬, /meta-optimize) | 로컬 모델 (LM Studio/Ollama) | 62개 기술 (skills) 동기화

v0.3.11(2026-04-13) — 리뷰어 (Reviewer) Anthropic 호환 모드 (프록시를 통한 Claude 사용)

v0.3.9(2026-04-11) — 프록시/커스텀 베이스 URL (CCSwitch) | 로컬 모델 (LM Studio/Ollama) | Windows (실험적 기능)

v0.3.5(2026-04-08) — Research Wiki (지속 가능한 논문/아이디어/실험/주장 + 관계 그래프) | 자기 진화 (Meta-Optimize self-evolution, 로그 분석 → SKILL.md 패치 제안)

v0.3.0(2026-04-03) — 다중 파일 메모리 인덱스 (Multi-file memory index) | 풍부한 작업 시스템 (Rich task system, TodoWrite) | /plan | 보안 강화 (Security hardening)

v0.2.2(2026-04-03) — /plan 단계별 계획 (step-by-step planning) | /tasks 지속적 추적 (persistent tracking)

v0.2.1(2026-04-03) — 지속적 메모리 (Persistent Memory) | Kimi K2.5 멀티턴 (multi-turn) 수정 | CJK 커서 수정

v0.2.0(2026-04-02) — 오픈 소스 (Open source) | Kimi + MiniMax + GLM 지원 | 스마트 LlmReview 라우팅 (routing) | CI/CD

v0.1.0(2026-04-02) — 초기 출시 (Initial release) | 다중 실행기(Multi-executor) 및 리뷰어 | 42개의 번들 기술 (bundled skills)

중문 README | 영문

🌙

당신이 잠든 동안 Claude Code가 연구를 수행하게 하세요. 깨어났을 때 당신의 논문은 점수가 매겨져 있고, 약점은 식별되었으며, 실험은 실행되었고, 서사는 자율적으로 다시 작성되어 있을 것입니다. 🪶

극도로 가볍습니다 — 의존성 제로, 종속성(lock-in) 제로. 시스템 전체가 일반 Markdown 파일로 구성되어 있습니다. 배울 프레임워크도, 유지 관리할 데이터베이스도, 설정할 Docker도, 관리할 데몬(daemon)도 없습니다. 모든 기술(skill)은 어떤 LLM이라도 읽을 수 있는 단일 SKILL.md 파일입니다. Claude Code를 Codex CLI, OpenClaw, Cursor, Trae, Antigravity, Windsurf 또는 당신만의 에이전트로 교체하더라도 워크플로우는 그대로 작동합니다. 포크(Fork)하고, 다시 쓰고, 당신의 스택에 맞게 조정하세요.

💡 ARIS는 플랫폼이 아니라 방법론입니다. 중요한 것은 연구 워크플로우이며, 어디든 가지고 갈 수 있습니다. 🌱

· · · · · · 💬 커뮤니티 참여 ·

자율적인 ML (Machine Learning) 연구 워크플로우를 위한 커스텀 Claude Code 기술입니다. 이 기술들은 **교차 모델 협업 (cross-model collaboration)**을 조율합니다. 즉, Claude Code가 연구를 주도하는 동안 외부 LLM (Codex MCP를 통해)이 핵심적인 리뷰어 역할을 수행합니다. 🔀 또한 대안적인 모델 조합(Kimi, LongCat, DeepSeek 등)도 지원합니다 — Claude 또는 OpenAI API가 필요하지 않습니다. 예를 들어, MiniMax-M2.7 + GLM-5 또는 GLM-5 + MiniMax-M2.7 조합이 가능합니다. 🤖 Codex CLI 네이티브 — OpenAI Codex를 위한 전체 기술 세트도 사용할 수 있습니다. 🖱️ Cursor — Cursor에서도 작동합니다. 🖥️ Trae — ByteDance의 AI IDE입니다. 🚀 Antigravity — Google의 에이전트 우선 (agent-first) IDE입니다. 🆓 ModelScope를 통한 무료 티어 — 비용 제로, 종속성(lock-in) 제로.

💭

왜 단일 모델로 셀프 플레이 (self-play)를 하지 않나요?
Claude Code 서브 에이전트 (subagents) 또는 에이전트 팀을 실행과 리뷰 모두에 사용하는 것은 기술적으로 가능하지만, 로컬 미니마 (local minima)에 빠지는 경향이 있습니다. 즉, 동일한 모델이 자신의 패턴을 리뷰하면 사각지대가 발생합니다.

이를 적대적 밴딧 (adversarial bandits) 대 확률적 밴딧 (stochastic bandits)의 관계로 생각해보세요. 단일 모델이 스스로 리뷰하는 것은 확률적 사례 (예측 가능한 보상 노이즈)인 반면, 교차 모델 리뷰는 적대적 사례 (리뷰어가 실행자가 예상하지 못한 약점을 적극적으로 탐색함)입니다. 그리고 적대적 밴딧은 근본적으로 속이기(game)가 더 어렵습니다.💭

왜 더 많은 모델이 아닌 두 개의 모델인가요?
두 개는 셀프 플레이의 사각지대를 깨뜨리는 데 필요한 최소한의 수이며, 2인 게임은 n인 게임보다 내쉬 균형 (Nash equilibrium)에 훨씬 더 효율적으로 수렴합니다. 리뷰어를 더 추가하는 것은 API 비용과 조정 오버헤드(coordination overhead)를 증가시키며 수익 체감의 법칙이 적용됩니다. 가장 큰 이득은 2→4가 아니라 1→2로 넘어갈 때 발생합니다. Claude Code의 강점은 빠르고 유연한 실행이며, Codex (GPT-5.4 xhigh)는 더 느리지만 비평에 있어 더 신중하고 엄격합니다. 이러한 상호 보완적인 스타일 —

속도 × 엄격함 — 은 어느 한 모델이 스스로 대화하는 것보다 더 나은 결과를 만들어냅니다.🧿

가능한 가장 강력한 리뷰어를 원하시나요?
— reviewer: oracle-pro를 추가하세요.

어떠한 기술에도 GPT-5.4 Provia Oracle MCP를 통해 리뷰를 라우팅할 수 있는 기술을 추가하세요. 증명 검증 (proof verification), 실험 감사 (experiment auditing), 그리고 최종 스트레스 테스트 (stress tests)를 위한 프로 수준의 추론 (reasoning)을 제공합니다. API 키 또는 무료 브라우저 모드와 함께 작동합니다. 설정(Setup) →

이것들은 전체 파이프라인 (pipelines)입니다 — 각 워크플로 (workflow)를 독립적으로 사용할 수도 있습니다. 이미 아이디어가 있나요? 워크플로 1.5로 건너뛰세요. 결과가 있나요? 워크플로 3으로 이동하세요. 리뷰가 있나요? 워크플로 4로 이동하세요. 지속적인 메모리 (persistent memory)를 원하시나요? 리서치 위키 (Research Wiki)를 활성화하세요. 모든 명령어에 대한 내용은 Quick Start를, 전체 상세 내역은 Workflows를 참조하세요.

기본 모드 (Basic mode) — ARIS에게 연구 방향을 제시하면, 모든 것을 처리합니다:

/research-pipeline "factorized gap in discrete diffusion LMs"

🔥 타겟 모드 (Targeted mode) — 개선하고 싶은 논문이 있나요? ARIS에게 논문과 코드를 제공하세요:

/research-pipeline "improve method X" — ref paper: https://arxiv.org/abs/2406.04329, base repo: https://github.com/org/project

ARIS는 논문을 읽고 → 약점을 찾아내고 → 코드베이스 (codebase)를 클론 (clone)하며 → 해당 코드로 약점들을 구체적으로 해결할 아이디어를 생성하고 → 실험을 실행하며 → 당신의 논문을 작성합니다. 마치 연구 보조원에게 다음과 같이 말하는 것과 같습니다: "이 논문을 읽고, 이 리포지토리 (repo)를 사용해서, 무엇이 부족한지 찾아내고, 그것을 수정해줘."

혼합하여 사용하기:

ref paper만 사용 = "무엇을 개선할 수 있는가?",
base repo만 사용 = "이 코드로 무엇을 만들 수 있는가?",
둘 다 사용 = "이 코드를 사용하여 이 논문을 개선하라."

🔥 반박 모드 (Rebuttal mode) — 리뷰가 막 도착했나요? 당황하지 마세요. ARIS는 모든 우려 사항을 읽고, 전략을 세우며, 근거가 확실하고 구조적이며 글자 수 제한을 준수하는 반박문 (rebuttal) 초안을 작성합니다:

/rebuttal "paper/ + reviews" — venue: ICML, character limit: 5000
파라미터 (Parameter)기본값 (Default)기능
venueICML대상 학회 (ICML/NeurIPS/ICLR/CVPR/ACL/AAAI/ACM)
character limit필수 항목. 반박문 (rebuttal) 텍스트의 엄격한 글자 수 제한
quick modefalse파싱(parsing) 및 전략(strategy) 수립(Phase 0-3) 후 중단. 초안을 작성하기 전 리뷰어들이 원하는 바를 먼저 확인
auto experimentfalse리뷰어가 새로운 증거를 요구할 때 /experiment-bridge를 통해 보충 실험 (supplementary experiments) 자동 실행
max stress test rounds1GPT-5.4가 초안을 고강도 테스트 (xhigh stress-tests) 하는 횟수
max followup rounds3리뷰어당 후속 라운드 (follow-up round) 제한 횟수

세 가지 안전 장치 (safety gates) — 하나라도 실패하면 반박문 (rebuttal)은 최종 확정되지 않습니다:

  • 🔒 조작 금지 (No fabrication) — 모든 주장은 논문/리뷰/사용자 확인 결과와 일치해야 함
  • 🔒 과잉 약속 금지 (No overpromise) — 모든 약속은 사용자의 승인을 받아야 함
  • 🔒 완전한 커버리지 (Full coverage) — 모든 리뷰어의 우려 사항이 추적되어야 함

두 가지 출력물: PASTE_READY.txt (정확한 글자 수, 학회 사이트에 바로 붙여넣기 가능) + REBUTTAL_DRAFT_rich.md (수동 편집을 위한 확장 버전).

승인 후 (After acceptance) — 논문이 통과되었다면, 이제 발표를 준비하세요:

/paper-slides "paper/" # → Beamer PDF + PPTX + 발표자 노트 (speaker notes) + Q&A 준비
/paper-poster "paper/" # → A0/A1 포스터 PDF + 편집 가능한 PPTX + SVG

💡 아이디어에서 논문, 그리고 강단까지 — 하나의 툴체인 (toolchain). 🌱

논문AI 리뷰 신호 (AI-review signal)상태 (Status)저자 (Author)스택 (Stack)
CS 논문 제출 (CS Paper Submission)CSPaper 시뮬레이션 리뷰: 8/10; AI 리뷰어 권고: "clear accept"CS 컨퍼런스에 제출됨; 공식 피드백 대기 중@DefanXue & @MonglitayClaude Code + GPT-5.4
AAAI 2026 논문 제출 (AAAI 2026 Paper Submission)Stanford Agentic Reviewer AAAI 스타일 리뷰: 7/10; AI 리뷰어 권고: "good paper, accept"AAAI 2026 메인 기술 트랙에 제출됨; 공식 결정 대기 중@xinbo820-webPure Codex CLI
UAV-CC심사 중 (Under review)IEEE TGRS에 제출됨@wxx827Claude Opus 4.6 + Codex 5.4 xhigh + Cursor

ARIS로 구축됨 — 아이디어에서 제출까지. AI-review 점수는 시뮬레이션/제3자 리뷰 도구로부터 커뮤니티가 보고한 신호이며, 공식적인 동료 심사 (peer-review) 또는 채택 결과가 아닙니다. ARIS는 AI 리뷰어에 맞서 명시적으로 반복 (iterate)하기 때문에, 더 높은 AI-review 점수가 예상되며 이는 스트레스 테스트 피드백으로 해석되어야 합니다. 인간 리뷰어는 해당 시스템들이 포착하지 못하는 새로운 관점, 학술지 (venue)의 취향 및 우려 사항을 제시할 수 있습니다. 상세 내용 + 리뷰 스크린샷 →

2026-05-14— 🩹(#217). /paper-plan 명령어가 설정되어 있고 사용자의 프로젝트에 구조적 자산 (figures/, /results/, /data/, /tables/, /sec/, /NARRATIVE_REPORT.md, /CLAIMS_FROM_RESULTS.md)이 있는 경우, 그리고 -- style-ref: 명령어가 GAP_REPORT.md를 학습하도록 설정된 경우, /paper-plan은 이제 예시 모델 (exemplar)의 섹션 토폴로지 (topology) + 밀도 요구 사항 (style_profile.md 기준)을 사용자의 실제 자산과 매핑하는 Gap Report를 생성합니다. 이는 사용자가 채울 증거가 없는 (no evidence to fill) 구조적 슬롯을 드러냅니다 (예: "예시 모델에는 3×4 ablation table이 있으나, 귀하에게는 ablation data가 없습니다"). Stable Slot ID (GAP_S5_ABLATION, …)가 사용됩니다. 그 후 /paper-write가 이 보고서를 소비합니다: status: missing으로 분류된 슬롯에서, 내용을 조작하는 대신 <!-- DATA_NEEDED: <Slot ID> — <description> --> 형태의 HTML 주석을 작성합니다. 이는 컴파일된 PDF에서는 보이지 않으며, grep을 통해 인간의 분류 (triage) 또는 /experiment-bridge 후속 조치에 용이합니다. 기본 "placeholder(자리 표시자) 금지" 규칙에서 GAP_REPORT에 나열된 누락된 슬롯에만 한정하여 좁게 허용된 예외 사항입니다. @zhangpelf의 독창적인 아이디어입니다. 1단계 (예시 모델 해체)는 이미 -- style-ref: (2026-05-03)에 의해 다루어졌으며, 3단계 진실성 규칙은 이미 /paper-claim-audit + /citation-audit + verify_papers.py + /proof-checker + /kill-argument + 6단계 보증 계약 (6-state assurance contract)에 의해 다루어졌습니다. 오직 Gap Analysis + DATA_NEEDED 마커만이 흡수되었습니다.

2026-05-14— ⚙️기본 리뷰어 모델 (Default reviewer model): 모든 REVIEWER_MODEL 설정에서 gpt-5.4gpt-5.5로 변경됨

constants (~30 SKILL.md + shared-references schema examples + README defaults). Codex MCP는 2026-04-24부터 gpt-5.5를 기본값으로 라우팅해 왔으며, 이번 커밋은 문서를 런타임(runtime) 상태에 맞게 업데이트합니다.: (a)⚠️ 반드시 알아야 할 동작 변경 사항. 이전 실행에서 생성된 .aris/traces/* JSON 파일들은 재현 불가능합니다 (not reproducible) — 재실행 시 5.5 모델이 호출되며, 경계선에 있는 사례들에 대해 다른 WARN/FAIL 판정을 내릴 수 있습니다 (이는 성능 퇴보가 아닌 리뷰어 품질 향상에 따른 결과입니다). (b) ChatGPT Plus/Pro 월간 할당량(quotas)이 과도한 사용 시 (/auto-paper-improvement-loop, 배치 감사 등) 더 빠르게 소진됩니다. 대응 방법 (Fallback): 개별 스킬 호출 시 --reviewer-model: gpt-5.4를 전달하거나, 스킬별로 REVIEWER_MODEL = gpt-5.4를 고정하십시오. Oracle Pro 티어 (gpt-5.4-pro / gpt-5.5-pro, --reviewer: oracle-pro를 통해 라우팅됨)는 별도의 경로이며 영향을 받지 않습니다. "Codex MCP를 통한 gpt-5.4"라고 명시된 과거 뉴스 항목들은 역사적 사실로서 보존됩니다.

이전 업데이트 (2026-03-12 — 2026-05-13, 62개 항목)

  • 2026-05-13— 🔍. 새로운 헬퍼(helper)가 3단계 폴백 검증(3-layer fallback verification)을 수행합니다 (arXiv 배치 API를 통해 요청당 최대 40개의 ID 처리 → CrossRef DOI 조회 → Semantic Scholar 퍼지 타이틀 매칭, 기본값 0.6 단어 중첩도)를 수행하며, 논문당 4가지 상태(tools/verify_papers.py 추가)를 출력합니다. Pre-Search 검증 프로토콜 — 문헌 관련 스킬을 위한 환각 방지 필터(anti-hallucination filter)로서 verified / unverified / verify_pending / error 상태와 assurance-contract.md에 부합하는 최상위 판정(PASS / WARN / BLOCKED / ERROR)을 생성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0