arXiv논문2026. 05. 29. 12:55

ProjectionBench: 점진적 정보 공개 환경에서의 LLM 과학적 가설 생성 평가

요약

점진적 정보 공개 환경에서 LLM의 과학적 가설 생성 능력을 평가하는 새로운 벤치마크 프레임워크인 ProjectionBench를 소개합니다. 모델이 최소한의 정보에서부터 상세한 기술 정보까지 단계적으로 제공받으며 혁신성과 근거 있는 추론 능력을 어떻게 발휘하는지 측정합니다.

핵심 포인트

과학적 발견을 위한 LLM의 혁신적 추론 능력 평가 프레임워크 제안
정보 공개 단계에 따른 가설 생성 및 의미론적 유사성 측정 방식 도입
GPT-5.4 및 Gemini 3.1 pro 등 최신 모델의 과학적 추론 성능 검증
최소 문맥 환경에서 GPT-5.4의 높은 가설 일치도 확인

과학적 발견 (Scientific discovery)은 본질적으로 창의적이고 불확실한 과정이며, 기지 지식의 회상을 넘어선 추론 (reasoning)을 필요로 합니다. 멀티홉 검색 (multi-hop retrieval)을 통해 대규모 언어 모델 (LLM)의 심층 연구 작업 성능을 평가하기 위한 많은 벤치마크가 제안되었지만, 진정한 과학적 발견에 필수적인 모델의 혁신적 추론 능력을 평가하는 연구는 여전히 미비한 상태입니다. 우리는 가공되지 않은 문제로부터 고전적인 귀무 가설 검정 (null hypothesis test)에 이르기까지, 과학적 발견 및 추론에서의 모델 성능을 평가하기 위한 벤치마크 프레임워크를 소개합니다. 우리의 프레임워크에서 모델은 처음에 최신 논문의 주제와 연구 질문만을 전달받으며, 기술적 세부 사항은 점진적으로 공개됩니다. 정보 공개의 각 단계에서 모델은 연구 질문을 해결하는 가설을 생성하는 과제를 수행하며, 이는 원본 논문의 결론과 비교되고 구성된 원자적 주장 (atomic claims)들의 자동화된 의미론적 유사성 (semantic similarity)을 통해 평가됩니다. 정답 결론 (ground-truth conclusions)으로부터의 의미론적 발산 (semantic divergence)을 이러한 방식으로 점진적으로 평가함으로써, 과학적 발견 목적으로 LLM을 사용하는 데 있어 모두 중요한 요소인 (최소한의 정보 하에서의) 모델의 혁신성 (innovativeness)부터 (전체 실험 세부 사항 하에서의) 근거 있는 추론 (grounded reasoning) 능력까지 평가할 수 있습니다. 우리의 프레임워크는 차세대 AI 과학자/공동 과학자 (AI scientist/co-scientist) 시스템 개발을 진전시키는 데 필수적인, LLM의 과학적 추론 및 발견 능력을 체계적으로 평가하기 위한 토대를 제공합니다. 구체적으로, 본 연구에서는 생체 활성 재료 (bioactive materials), 기계 재료 (mechanical materials), 나노 재료 (nanomaterials)를 아우르는 45편의 논문을 통해 GPT-5, GPT-5.4, Gemini 2.5 pro, 그리고 Gemini 3.1 pro preview를 평가합니다. 우리는 GPT-5.4와 Gemini 3.1 pro가 예상대로 이전 세대 모델들보다 뛰어난 성능을 보임을 확인하였으며, 특히 GPT-5.4는 최소한의 문맥 (minimal context) 하에서도 정답 결론과 0.7 F1 점수의 일치도를 유지함을 발견했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ProjectionBench: 점진적 정보 공개 환경에서의 LLM 과학적 가설 생성 평가

요약

핵심 포인트

댓글