ResearchClawBench: 재발견에서 새로운 발견까지, 자동화된 연구를 위한 AI 에이전트 평가

재발견(Re-Discovery)에서 새로운 발견(New-Discovery)까지, 자동화된 연구를 위한 AI 에이전트 평가

ResearchClawBench는 AI 코딩 에이전트가 로우 데이터 (raw data) 읽기부터 출판 가능한 수준의 보고서 작성에 이르기까지 독립적으로 과학적 연구를 수행할 수 있는지를 측정하는 벤치마크이며, 그 결과를 실제 인간이 작성한 논문과 비교하여 엄격하게 평가합니다.

코딩 능력이나 사실적 회상 (factual recall)을 테스트하는 벤치마크와 달리, ResearchClawBench는 다음과 같은 질문을 던집니다: 선별된 과학적 작업 공간과 동일한 연구 목표가 주어졌을 때, AI 에이전트가 동일한 (또는 더 나은) 과학적 결론에 도달할 수 있는가?

🔄 2단계 파이프라인 (Two-Stage Pipeline): 자율 연구 + 엄격한 동료 검토 (peer-review) 스타일의 평가 |
🧪 40개의 실제 과학 작업 (Real-Science Tasks): 10개 학문 분야, 출판된 논문에서 선별된 데이터셋 |
👁️ 전문가 주석 데이터 (Expert-Annotated Data): 도메인 전문가가 선별한 작업, 체크리스트 및 데이터셋 |
🤖 멀티 에이전트 지원 (Multi-Agent Support): Claude Code, Codex CLI, OpenClaw, ResearchClaw, ... 및 커스텀 에이전트 |
🚀 재발견에서 새로운 발견까지 (Re-Discovery to New-Discovery): 50점 = 논문과 일치, 70점 이상 = 논문을 능가함 |
📋 세밀한 체크리스트 (Fine-Grained Checklist): 항목별 키워드, 가중치 및 추론 |
📡 라이브 스트리밍 UI (Live Streaming UI): 에이전트가 코드를 작성하고, 그래프를 그리고, 글을 쓰는 과정을 실시간으로 관찰 |
🍃 가벼운 의존성 (Lightweight Dependencies): 순수 Flask + vanilla JS 사용, 무거운 프레임워크 없음 |

ResearchClawBench.mp4

대부분의 AI 벤치마크는 모델이 무엇을 아는지를 평가합니다. 우리는 에이전트가 무엇을 할 수 있는지를 평가합니다.

장난감 문제가 아닌 실제 과학 (Real science, not toy problems). 10개 학문 분야의 출판된 논문에서 가져온 40개의 태스크로 구성되며, 각 태스크에는 엄선된 실험 데이터셋이 포함되어 있습니다.

2단계 파이프라인 (Two-stage pipeline). 자율 연구(Autonomous research)가 먼저 수행되고, 그 다음 동료 검토(Peer review)와 마찬가지로 엄격한 평가가 이루어집니다.

세밀한 멀티모달 점수 산정 (Fine-grained, multimodal scoring). 텍스트와 이미지 기준을 포함한 가중치 체크리스트를 사용하며, 엄격한 동료 검토자 역할을 하는 LLM(대규모 언어 모델)이 이를 판정합니다.

에이전트 불가지론 (Agent-agnostic). Claude Code, Codex CLI, ARIS Codex, OpenClaw, Nanobot, EvoScientist, ResearchClaw 및 경량화된 ResearchHarness 베이스라인을 기본적으로 지원합니다. 단 한 줄의 코드로 사용자의 에이전트를 가져올 수 있습니다.

재발견에서 새로운 발견으로 (From Re-Discovery to New-Discovery). 점수가 50점을 넘으면 원본 논문과 일치함을 의미하며, 70점을 넘으면 원본을 능가함을 의미합니다. 새로운 영역이 활짝 열려 있습니다.

2026-04-30📊 ResearchHarness를 사용하여 독립형 LLM들을 평가했습니다: Claude-Opus-4.7, Claude-Opus-4.6, GLM-5.1, Qwen3.6-Plus, Qwen3.5-397B-A17B, GPT-5.5, GPT-5.4, MiMo-V2-Pro, Kimi-K2.5, Grok-4.1, 그리고 Gemini-3.1-Pro. 결과는 리더보드(Leaderboard)에서 확인할 수 있습니다.

2026-04-13🧭 내장된 ARIS Codex UI 지원 및 문서를 추가했습니다. 가져온 벤치마크 실행 결과는 리더보드와 실행 브라우저(run browser)에서 지원되지만, 공개 프리셋에서 원클릭 실행은 아직 지원되지 않습니다.

2026-04-10🔬 내장된 ResearchClaw 지원을 추가했습니다. ResearchClaw는 논문 검색, 문헌 검토 및 데이터 분석 기능을 갖춘 지능형 에이전트 기반 연구 보조 도구입니다.

2026-04-07🧪 동일한 ResearchClawBench 워크플로우 하에서 서로 다른 LLM을 테스트하기 위한 경량 베이스라인 에이전트로 ResearchHarness 지원을 추가했습니다.

2026-03-30🧬 내장된 EvoScientist 지원을 추가하고, 첫 번째로 첨부된 이미지가 명시적으로 정답(ground-truth) 도표로 취급되도록 멀티모달 판정 프롬프팅(multimodal judge prompting)을 명확히 했습니다.

2026-03-27🤗 InternScience/ResearchClawBench에 Hugging Face 데이터셋 미러를 출시했습니다. 여기에는 ResearchClawBench-Self에서 가져온 10개의 추가 태스크와 태스크 다운로더 스크립트가 포함되어 있습니다.

2026-03-27📨 커뮤니티 태스크 업로드를 위한 ResearchClawBench 제출 Space를 오픈했습니다.

새로운 태스크는 이 GitHub 리포지토리에 직접 추가되는 대신, 그곳에서 검증되며 Hugging Face 데이터셋 PR (Pull Request)을 통해 검토됩니다.

2026-03-20🐈 신규 에이전트인 Nanobot를 추가했습니다 — 신뢰할 수 있는 다단계 도구 실행 (multi-step tool execution) 기능을 갖춘 초경량 OpenClaw 대안입니다. 쉬운 커스터마이징 (customization)을 위해 에이전트 설정이 agents.json으로 이동되었습니다.

2026-03-19🚀 Claude Code, Codex CLI, 그리고 OpenClaw 지원을 포함한 초기 버전을 출시했습니다. 10개의 과학 분야에 걸친 40개의 태스크가 포함되어 있습니다.

ResearchClawBench의 모든 태스크는 과학적 타당성 (scientific validity)과 재현성 (reproducibility)을 보장하기 위해 엄격하고 전문가 중심적인 파이프라인을 통해 구축됩니다:

flowchart TD
A["📄 고품질 논문 수집
(대상 논문)"] --> B["🧑‍🔬 인간 전문가 추출
(핵심 태스크 지침)"]
B --> C["📋 평가 체크리스트
(기준 + 키워드 + 가중치)"]
...

고품질 논문 수집 (High-Quality Paper Collection)— 도메인 전문가들이 10개의 과학 분야 전반에 걸쳐 명확한 방법론과 재현 가능한 결과를 가진 최근의 영향력 있는 출판물을 선정합니다. -
전문가 태스크 추출 (Expert Task Extraction)— 인간 전문가가 각 논문을 읽고 핵심 연구 태스크를 구조화된 지침으로 추출하며, 주요 과학적 질문, 입력 데이터, 그리고 기대되는 출력값을 식별합니다. -
체크리스트 설계 (Checklist Design)— 전문가들이 가중치가 부여된 기준(텍스트 및 이미지 항목)을 포함하는 세밀한 평가 체크리스트를 작성하며, 각 항목에는 평가자(judge)가 반드시 확인해야 하는 특정 기술적 키워드가 포함됩니다. -
데이터 및 관련 연구 수집 (Data & Related Work Collection)— 태스크를 위한 연구 워크스페이스 (research workspace)를 구성할 수 있도록 데이터셋과 관련 참고 자료들을 큐레이션합니다. -
인간 재현 및 검증 (Human Reproduction & Validation)— 인간 연구자들이 제공된 워크스페이스와 지침으로부터 논문의 결과를 독립적으로 재현하며, 모든 체크리스트 항목이 달성 가능한지 확인합니다. 이는 벤치마크의 공정성을 보장하고 체크리스트가 현실에 기반하도록 합니다.

ResearchClawBench는 두 개의 별도 단계로 작동합니다:

flowchart LR
subgraph Stage1["Stage 1 — 자동 연구 (Auto Research)"]
A["원시 데이터
+ 지침"] --> B["AI 에이전트
(자율적)"]
...

AI 에이전트는 원시 데이터셋 (raw datasets), 참고 자료, 그리고 작업 지침 (task instructions)이 포함된 워크스페이스 (workspace)를 전달받습니다. 에이전트는 다음의 과정을 독립적으로 수행해야 합니다:

데이터 탐색 (Explore): 데이터를 탐색하고 연구 질문 (research question)을 이해합니다.
코드 작성 (Write code): 데이터를 분석, 모델링 및 시각화하기 위한 코드를 작성합니다.
연구 보고서 생성 (Produce a research report): 그림 (figures), 방법론 (methodology), 결과 (results), 그리고 고찰 (discussion)을 포함한 보고서 (report/report.md)를 생성합니다.

어떠한 도움도 주지 않습니다. 사고 사슬 (chain-of-thought) 힌트도 제공하지 않습니다. 에이전트는 실제 연구자처럼 모든 도구에 대한 접근 권한을 가진 자신만의 샌드박스 (sandboxed) 워크스페이스에서 작업합니다.

에이전트의 작업이 완료되면, 생성된 보고서는 세밀한 체크리스트 (checklist)를 사용하여 **기존에 발표된 논문 (original published paper)**과 대조하여 평가됩니다. 평가자 (judge)는 작업 지침, AI 보고서, 그리고 체크리스트 기준을 전달받은 후, **이중 모드 루브릭 (dual-mode rubric)**을 사용하여 각 항목에 점수를 매깁니다:

flowchart TD
subgraph Inputs
I["INSTRUCTIONS.md\n(task background)"]
...

각 체크리스트 항목에는 다음이 포함됩니다:

구체적 기준 (Specific criteria): 논문의 핵심 기여 (key contributions)에서 추출된 기준
기술적 키워드 (Technical keywords): 평가자가 반드시 확인해야 하는 키워드 (예: "ROC-AUC 개선 (ROC-AUC improvement)", "몬테카를로 적분 (Monte Carlo integration)"")
가중치 (Weight): 해당 항목의 중요도를 반영
유형 (Type): 방법론/결과에 대한 text, 그림 비교 (멀티모달 비전, multimodal vision)를 위한 image

평가자는 각 항목에 어떤 평가 모드가 적용되는지 자동으로 결정한 다음, 그에 상응하는 루브릭(아래 참조)으로 점수를 매깁니다.

특정 수치 결과, 지표 (metrics), 또는 정량적 결과 (quantitative outcomes)를 포함하는 체크리스트 항목의 경우:

점수	의미
0	기준이 완전히 결여됨
1–10	언급은 되었으나 정량적 결과 (quantitative results)가 제공되지 않음
11–20	결과는 제시되었으나 방법론 (methodology)에 근본적인 오류가 있음
21–30	중대한 방법론적 결함이 있으며, 지표 (metrics)가 심하게 벗어남
31–40	방법론은 대체로 정확하나 지표가 논문보다 눈에 띄게 낮음
41–50	지표가 논문과 대략적으로 유사함
51–60	지표가 논문보다 약간 더 나음
61–70	지표가 논문보다 명확하게 더 나음
71–80	방법론과 지표가 모두 실질적으로 개선됨
81–90	지표가 논문을 극적으로 능가함
91–100	논문을 훨씬 초과하는 획기적인 결과 (breakthrough results)

이론적 설명, 메커니즘적 통찰 (mechanistic insights), 또는 해석적 분석 (interpretive analysis)을 포함하는 체크리스트 항목의 경우:

점수	의미
0	기준이 완전히 결여됨
1–10	모호하고 일반적인 진술로만 언급됨
11–20	일부 설명은 있으나 실질적인 분석이 없음
21–30	분석을 시도했으나 증거가 불충분하거나 논리에 공백이 있음
31–40	방향은 맞으나 깊이가 부족하며, 핵심 논거가 누락됨
41–50	분석의 깊이와 엄밀성 (rigor)이 논문과 유사함
51–60	논문보다 더 많은 뒷받침 증거를 제공함
61–70	더 완전한 논리적 연쇄 (logical chain)와 더 엄밀한 논증을 보여줌
71–80	새로운 통찰력을 동반한 현저히 깊이 있는 분석
81–90	분석의 깊이가 논문을 훨씬 초과함
91–100	획기적인 통찰력을 담은 독창적인 기여

설계 단계부터 엄격하게 구성되었습니다. 판정관은 AI가 생성한 콘텐츠에 대해 매우 회의적입니다. 그럴듯하게 들리는 주장이라 할지라도 반드시 구체적인 증거로 뒷받침되어야 합니다. 보고서가 길다고 해서 더 높은 점수를 받지는 않습니다. 스타일보다는 실질적인 내용이 중요합니다.

각 도메인은 실제 출판된 연구의 완전한 실험 데이터를 포함하는 **4개의 정교하게 큐레이션된 작업 (tasks)**으로 구성됩니다:

도메인 (Domain)	예시 주제 (Example Topics)	데이터 유형 (Data Types)
천문학 (Astronomy)	블랙홀 초방사 (Black hole superradiance), 베이지안 항성 추론 (Bayesian stellar inference)	`.dat`, `.csv`
화학 (Chemistry)	GNN 분자 예측 (GNN molecular prediction), 단백질-리간드 도킹 (protein-ligand docking)	`.pdb`, `.sdf`, `.csv`
지구 (Earth)	빙하 질량 균형 (Glacier mass balance), 기후 데이터셋 (climate datasets)	`.csv`, 다지역 시계열 (multi-region series)
에너지 (Energy)	배터리 퇴화 (Battery degradation), 재생 에너지 모델링 (renewable energy modeling)	`.xlsx`, 시계열 (time series)
정보 (Information)	NLP 벤치마크 (NLP benchmarks), 딥러닝 분석 (deep learning analysis)	`.pdf`, `.tex`, `.ipynb`
생명 (Life)	나노포어 시퀀싱 (Nanopore sequencing), 유전체 분석 (genomic analysis)	`.csv`, `.xlsx`
재료 (Material)	재료 특성 예측 (Materials property prediction), 사전 학습된 모델 (pretrained models)	`.pt`, `.csv`
수학 (Math)	다중 에이전트 경로 탐색 (Multi-agent pathfinding), 최적화 (optimization)	`.json`, `.npy`, 격자 지도 (grid maps)
신경과학 (Neuroscience)	신경 해독 (Neural decoding), 뇌 신호 처리 (brain signal processing)	`.csv`, `.h5`, `.yaml`
물리학 (Physics)	양자 기하학 (Quantum geometry), 초유체 강성 (superfluid stiffness)	`.h5`, `.json`, `.csv`

총 40개의 작업 (tasks) — 각 작업은 데이터 분석부터 새로운 과학적 통찰에 이르기까지 전체 스펙트럼을 아우르며, 고품질의 인간 저자 출판물에서 선정된 정교하게 큐레이션된 연구 과제입니다.

리더보드는 실시간으로 업데이트되는 저희 웹사이트에서 확인하실 수 있습니다.

내장된 대시보드는 (작업, 에이전트) 쌍별 최적 점수를 집계하여 다음을 표시합니다:

프런티어 차트 (Frontier chart) — 모든 에이전트에 걸친 작업별 최고 점수
리더보드 테이블 (Leaderboard table) — 개별 실행(run)으로 연결되는 클릭 가능한 셀
작업별 세부 분석 (Per-task breakdown) — 모든 에이전트의 보고서, 코드 및 점수 추론 확인

프런티어는 **최첨단 기술 (state of the art)**을 나타냅니다 — 50점을 초과하는 모든 지점은 AI가 해당 특정 작업에서 인간 연구자를 능가하는 미개척 영역입니다.

ResearchClawBench/
├── evaluation/ # 핵심 평가 프레임워크 (Core evaluation framework)
│ ├── server.py # Flask API + SSE 스트리밍 (SSE streaming)
...

git clone https://github.com/InternScience/ResearchClawBench.git
# 평가만 실행해야 하는 경우, 대신 다음을 사용할 수 있습니다:
# git clone --depth 1 https://github.com/InternScience/ResearchClawBench.git
...

InternScience/ResearchClawBench에 있는 Hugging Face 데이터셋 미러(mirror)에는 현재 이 저장소(repository)에 포함된 40개의 태스크 외에 커뮤니티에서 기여한 16개의 태스크가 포함되어 있으며, 모두 동일한 tasks/<TaskID>/... 레이아웃으로 패키징되어 있습니다.

이 추가 태스크들을 이 저장소에서 직접 사용하려면 --output-dir을 로컬의 tasks/ 디렉토리로 설정하십시오.

헬퍼 스크립트(helper script)를 다운로드합니다:

pip install huggingface_hub
curl -L -o download_tasks.py https://huggingface.co/datasets/InternScience/ResearchClawBench/resolve/main/download_tasks.py

미러링된 모든 Hugging Face 태스크를 다운로드합니다:

python download_tasks.py --all --output-dir /path/to/ResearchClawBench/tasks

하나 이상의 특정 태스크를 다운로드합니다:

python download_tasks.py --task Astronomy_004 --task Physics_004 --output-dir /path/to/ResearchClawBench/tasks

다운로드된 파일은 해당 태스크 디렉토리 바로 아래에 배치됩니다. 예를 들어 /path/to/ResearchClawBench/tasks/Astronomy_004/...와 같습니다.

유효한 task_info.json을 포함하여 tasks/ 아래에 배치된 모든 태스크 디렉토리는 평가 UI/API에 의해 자동으로 검색됩니다.

점수 산정 모델(scoring model)의 자격 증명(credentials)을 포함하는 evaluation/.env 파일을 생성하십시오:

OPENAI_API_KEY=sk-xxx
OPENAI_BASE_URL=https://api.openai.com/v1
SCORER_MODEL=gpt-5.1

벤치마크할 에이전트(agent)를 설치하십시오. 모든 내장 프리셋(preset)을 설치할 필요는 없습니다.

에이전트 (Agent)	공식 설치 가이드 (Official installation guide)	비고 (Notes)
Claude Code	Claude Code 개요 (Claude Code overview)	Anthropic 공식 문서 (Anthropic official docs)
Codex CLI	Codex CLI	OpenAI 공식 문서 (OpenAI official docs)
ARIS Codex	Auto-claude-code-research-in-sleep	UI에서 가져온 실행(runs)을 지원합니다. 공개 프리셋 (public preset)은 현재 문서화 전용이며, 원클릭 실행 (one-click launch)은 아직 지원되지 않습니다.
OpenClaw	OpenClaw	공식 웹사이트 및 설정 진입점
Nanobot	HKUDS/nanobot	공식 GitHub 저장소 (Official GitHub repository)
EvoScientist	EvoScientist/EvoScientist	공식 GitHub 저장소 (Official GitHub repository)
ResearchClaw	ymx10086/ResearchClaw	`pip install researchclaw`
ResearchHarness	InternScience/ResearchHarness	다양한 LLM을 테스트하기 위한 경량 베이스라인 하네스 (Lightweight baseline harness); `agents.json`에서 `/abs/path/to/ResearchHarness`를 교체하십시오.

python -m evaluation

Insights

ResearchClawBench: 재발견에서 새로운 발견까지, 자동화된 연구를 위한 AI 에이전트 평가

요약

핵심 포인트

ResearchClawBench.mp4

댓글

ARMOUR Residential REIT 2분기 실적 발표 주요 내용

Allegion 2분기 실적 발표 주요 내용

급등했던 기술주들이 60% 하락했습니다 — 매도세를 활용하는 방법: 하나의 큰 투자 아이디어

RTX 2분기 실적 발표 주요 내용

ARMOUR Residential REIT 2분기 실적 발표 주요 내용

Allegion 2분기 실적 발표 주요 내용

급등했던 기술주들이 60% 하락했습니다 — 매도세를 활용하는 방법: 하나의 큰 투자 아이디어

RTX 2분기 실적 발표 주요 내용