SGI-Bench: 과학적 탐구 주기 전반에 걸친 과학적 일반 지능 (SGI) 평가를 위한 과학자 정렬 벤치마크

심사숙고(Deliberation), 구상(Conception), 실행(Action), 지각(Perception)으로 이어지는 전체 탐구 주기에 걸쳐 과학적 일반 지능 (Scientific General Intelligence, SGI)을 평가하기 위한 과학자 정렬 (Scientist-aligned) 벤치마크입니다. 이 벤치마크는 Science지의 125가지 거대 질문 (125 Big Questions)에서 영감을 얻은 10개 분야 및 1,000개 이상의 전문가 큐레이션 샘플을 포함하며, 에이전트 기반 평가 프레임워크 (agentic evaluation framework)와 다중 지표 프로토콜 (multi-metric protocol)을 갖추고 있습니다.

🚩 업데이트 (2026-06-02) 평가 대상 에이전트가 웹 검색을 통해 벤치마크 질문을 찾아내는 것을 방지하기 위해 Hugging Face의 SGI-Bench 데이터셋이 현재 게이트(gated) 처리되었습니다. 연락처 정보 공유에 동의하면 자동으로 액세스 권한이 부여됩니다. 평가를 실행하기 전에 읽기 전용 Hugging Face 토큰을 HF_TOKEN으로 설정하십시오.

🚩 업데이트 (2025-12-22) arXiv에 SGI-Bench 논문을 공개합니다.

🚩 업데이트 (2025-12-19) SGI-Bench가 매우 효율적이고 포괄적인 평가 툴킷인 VLMEvalKit 및 SciEvalKit에 적용되었습니다.

🎤 강연 (2025-12-18) OpenMMLab, Zhihu, ModelScope가 공동 주최하는 AI Insight Talk에서 *대규모 언어 모델 평가 (large language model evaluation)*에 관한 강연 요청을 받았습니다.

🚩 업데이트 (2025-12-12) 새로 출시된 GPT-5.2-Pro를 SGI-Bench에서 평가합니다.

👉 추가 뉴스 (클릭하여 확장)

🚩 업데이트 (2025-12-10) 페이지의 논문 PDF를 업데이트합니다.

🚩 업데이트 (2025-12-03) SGI-Bench의 데이터와 코드를 공식적으로 공개합니다.

SGI는 인간 과학자의 다재다능함과 숙련도를 가지고 과학적 탐구의 전체 반복 주기인 심사숙고(Deliberation), 구상(Conception), 실행(Action), 지각(Perception)을 자율적으로 탐색할 수 있는 AI 시스템을 의미합니다. SGI-Bench는 과학적 심층 연구 (scientific deep research), 아이디어 생성 (idea generation), 건식/습식 실험 (dry/wet experiments), 멀티모달 실험 추론 (multimodal experimental reasoning)이라는 네 가지 과학자 정렬 작업군을 통해 이 정의를 실행 가능한 형태로 구현합니다.

Deliberation (Scientific Deep Research, 숙의 (과학적 심층 연구)): 멀티홉 검색 (Multi-hop retrieval), 합성 (synthesis), 그리고 메타 분석 (meta-analysis) 스타일의 추론.
Conception (Idea Generation, 구상 (아이디어 생성)): 구조화된 아이디어 구상 (ideation) 및 다차원적 비교 평가.
Action (Dry/Wet Experiment, 실행 (건식/습식 실험)): 코드 생성 (code generation), 실험 프로토콜 (lab protocol) 개발 및 검증.
Perception (Experimental Reasoning, 인지 (실험적 추론)): 프로세스/관찰/시뮬레이션/실험/시각화 이미지 추론.

실용적 탐구 모델 (Practical Inquiry Model, PIM)에 기반하여, SGI-Bench는 과학을 숙의 (deliberation), 구상 (conception), 실행 (action), 인지 (perception)를 연결하는 반복적인 주기로 취급합니다. 이러한 관점에서 SGI는 지식 검색, 아이디어 형성, 실행, 그리고 해석을 하나의 통합된 탐구 루프로 통합하는 능력을 포착합니다.

Raw Corpus (원시 코퍼스): Science지의 125가지 거대 질문 (125 Big Questions)에서 영감을 얻은 10개 분야에 걸친 전문가 큐레이션 텍스트/이미지.
Question Construction (질문 구성): 지속적인 전문가 루프 검토 (expert-in-the-loop review)를 거친 100명 이상의 석·박사 학위 소지자 참여.
Data Cleaning (데이터 정제): 실행 가능성과 고유한 정답을 보장하기 위한 규칙 + 모델 체크 + 전문가 QA.
Difficulty Filtering (난이도 필터링): 높은 도전 과제를 유지하기 위해 강력한 LLM의 50% 이상이 해결한 샘플 제거.

결과: 실제적이고 도전적이며 폭넓게 대표성을 갖춘, 과학자 정렬된 고충실도 (high-fidelity) 작업.

Four Stages (4단계): 질문 선택 (Question Selection) → 지표 맞춤화 (Metric Customization) → 예측 및 평가 (Predict & Eval) → 보고서 생성 (Report Generation)
Tool Pool (도구 풀): 웹 검색 (Web search), PDF 파서 (PDF parser), Python 인터프리터 (Python interpreter), 파일 리더 (file reader), 지표 함수 (metric functions)
Task Metrics (작업 지표): EM/SLA; 구현 유사도 (Implementation Similarity); PassAll@k/SER; MCA/RV
Customizable (맞춤 설정 가능): 요구에 따라 과학자 정렬된 지표 (예: 엄밀성 (rigor), 타당성 (feasibility)) 추가 가능

이 에이전트 기반 스택 (agent-based stack)은 점수 산정을 추적 가능한 단계로 공식화하고, 재현성을 개선하며, 평가자-모델 결합 편향 (evaluator–model coupling bias)을 완화하고, 실행 가능하며 과학자 정렬된 통찰력을 제공합니다.

Objective (목표): 온라인 검색 (online retrieval)을 이동 기준선 (moving baseline)으로 사용하여 테스트 시점에 참값(ground-truth)이 없는 아이디어 생성의 참신함 (novelty)을 최적화함으로써 이를 해결함.
Reward Design (보상 설계):

R = R_format + R_novelty

XML 형식 및 엄격한 구조(예: <think>, <answer>)를 강제함; 임계값(thresholds)에 의해 제어되는, 검색된 연구물과의 임베딩 비유사성(embedding dissimilarity)에 대해 보상을 부여함. 설정 (Setup): Qwen3-8B (ms-swift)에 GRPO 적용, G=8, 높은 온도(high temperature), bfloat16, 온라인 검색(online retrieval) n=4. 역학 (Dynamics): 형식 보상(Format reward)은 빠르게 포화되며, 참신성(novelty)은 꾸준히 증가함. 레이블 없이 평균 참신성이 49.36 → 62.06으로 향상됨.

TTRL은 개방형 아이디어 구상(open-ended ideation)을 측정 가능한 테스트 시간 최적화(test-time optimization)로 변환하며, 다중 목적 보상(multi-objective rewards; 엄밀성, 실행 가능성, 안전성, 비용)으로 확장됨.

모델	심층 연구 (Deep Research)	아이디어 생성 (Idea Generation)	건식 실험 (Dry Experiment)	습식 실험 (Wet Experiment)	실험적 추론 (Experimental Reasoning)	SGI-점수 (SGI-Score)
Gemini-3-Pro 🥇	18.48	39.68	36.64	32.45	41.92	33.83
Claude-Sonnet-4.5 🥈	13.84	43.20	35.79	30.15	37.80	32.16
Qwen3-Max 🥉	15.38	39.83	33.21	33.62	37.80	31.97
GPT-4.1	11.32	36.49	34.32	36.63	38.49	31.45
GPT-5.2-Pro	15.72	55.03	28.04	17.50	39.18	31.09
GPT-5	14.47	55.40	29.89	16.31	38.14	30.84
o3	12.89	46.07	31.73	30.04	32.65	30.68
Claude-Opus-4.1	12.93	40.29	34.69	25.38	38.83	30.42
...

git clone https://github.com/InternScience/SGI-Bench.git
cd SGI-Bench/evaluation
export OPENAI_API_KEY="xxxxx"
...

SGI-Bench 데이터셋은 Hugging Face에서 게이트(gated)되어 있습니다. 로그인 후 데이터셋 페이지를 열고, 연락처 정보 공유에 동의하는 버튼을 클릭하세요. 이는 자동적으로 이루어지며 수동 승인이 필요하지 않습니다. 이 게이트는 평가 대상 에이전트가 웹 검색을 통해 벤치마크 질문을 직접 찾아내는 것을 방지하기 위한 것입니다. 토큰을 빠르게 받으려면 https://huggingface.co/settings/tokens 에서 읽기 전용(read-only) 토큰을 생성하고 이를 HF_TOKEN으로 설정하세요.

conda activate sgi
python task_1_deep_research/step_1_get_answer.py gpt-5.2-pro
python task_1_deep_research/step_2_score.py gpt-5.2-pro

아이디어 생성(idea generation) 평가를 위한 환경 의존성(environment dependencies)을 설치합니다.

conda create -n idea python=3.10.18
conda activate idea
pip install -r task_2_idea_generation/idea_generation_requirements.txt

평가를 시작합니다.

conda activate idea
python task_2_idea_generation/step_1_get_answer.py gpt-5.2-pro
python task_2_idea_generation/step_2_score.py gpt-5.2-pro

건식 실험(dry experiment) 코드를 실행하기 위한 환경 의존성을 설치합니다.

conda create -n dryexp python=3.10.18
conda activate dryexp
pip install -r task_3_dry_experiment/dry_experiment_requirements.txt

코드 폴더를 생성하고 데이터를 초기화합니다 (최초 1회만 실행).

conda activate sgi
python task_3_dry_experiment/step_1_build.py

참고: 일부 스크립트가 실행 중 시간 초과(time out)될 경우, 해당 폴더로 이동하여 수동으로 스크립트를 실행하여 데이터 초기화를 완료해 주십시오.

평가를 시작합니다.

conda activate sgi
python task_3_dry_experiment/step_2_get_answer.py gpt-5.2-pro
python task_3_dry_experiment/step_3_run_code.py gpt-5.2-pro
...

conda activate sgi
python task_3_wet_experiment/step_1_get_answer.py gpt-5.2-pro
python task_3_wet_experiment/step_2_score.py gpt-5.2-pro

conda activate sgi
python task_4_experimental_reasoning/step_1_get_answer.py gpt-5.2-pro
python task_4_experimental_reasoning/step_2_score.py gpt-5.2-pro

conda activate sgi
python sgi_score.py gpt-5.2-pro

💬

GitHub Issues: 버그 보고 또는 기능 요청은 이슈를 열어주십시오 -
📧

Email: xu_wanghan@sjtu.edu.cn -
🤝

Community:

저희의 연구를 인용하고 싶으신 경우, 다음 BibTeX을 사용해 주십시오.

@article{xu2025probing,
title={Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows},
author={Xu, Wanghan and Zhou, Yuhao and Zhou, Yifan and Cao, Qinglong and Li, Shuo and Bu, Jia and Liu, Bo and Chen, Yixin and He, Xuming and Zhao, Xiangyu and others},
...

본 연구가 도움이 되었다면, 이 레포지토리를 star⭐ 해주시면 감사하겠습니다. 지원에 감사합니다! 🤩

SGI-Bench: 과학적 탐구 주기 전반에 걸친 과학적 일반 지능 (SGI) 평가를 위한 과학자 정렬 벤치마크

요약

핵심 포인트

👉 추가 뉴스 (클릭하여 확장)

댓글