arXiv논문2026. 06. 18. 11:44

SciRisk-Bench: AI4Science 안전성을 위한 위험 차원 인식 벤치마크

요약

AI4Science 워크플로우의 안전성을 평가하기 위해 설계된 새로운 벤치마크인 SciRisk-Bench를 소개합니다. 이 벤치마크는 7개 학문 분야와 10개의 위험 차원을 통해 LLM의 과학적 위험 인식 능력을 정밀하게 진단합니다.

핵심 포인트

AI4Science 분야의 안전성 평가를 위한 SciRisk-Bench 제안
7개 학문 분야 및 31개 세부 분야를 포괄하는 광범위한 데이터셋
10개의 명시적인 위험 차원을 통한 체계적인 안전성 진단
주요 LLM 및 과학 특화 모델의 안전성 취약점 파악 가능

대규모 언어 모델 (LLMs)은 과학적 질문 답변 및 문헌 분석부터 실험실 계획 및 자율적 발견에 이르기까지, AI for Science (AI4Science) 워크플로우에 점점 더 깊숙이 통합되고 있습니다. 이러한 발전은 과학적 역량뿐만 아니라, 모델이 중대한 과학적 맥락에서 위험을 인식하고 회피할 수 있는지 여부를 평가하는 안전성 벤치마크에 대한 절박한 필요성을 창출합니다. 기존의 AI4Science 안전 데이터셋은 여러 학문 분야와 작업 형식을 다루고 있지만, 근본적인 위험 차원 (risk dimensions)에 대한 명시는 부족한 상태입니다. 우리는 명시적인 위험 차원과 과학 분야라는 두 가지 상호 보완적인 관점에서 AI4Science 안전성을 평가하도록 설계된 벤치마크인 \textbf{SciRisk-Bench}를 소개합니다. SciRisk-Bench는 7개의 학문 분야, 31개의 세부 분야 및 10개의 위험 차원을 다룹니다. 실험 섹션에서는 주요 LLMs와 과학 특화 LLMs를 위험 차원, 학문 분야 및 세부 분야에 걸쳐 평가하여, 과학 모델이 어느 부분에서 여전히 안전하지 않은지에 대한 세밀한 진단을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SciRisk-Bench: AI4Science 안전성을 위한 위험 차원 인식 벤치마크

요약

핵심 포인트

댓글