arXiv논문2026. 06. 17. 12:26

PseudoBench: 에이전트 기반 자동 연구가 유사과학을 어떻게 조장하는지 측정하기

요약

LLM 에이전트가 자율 연구 과정에서 유사과학을 생성하고 확산할 위험을 측정하기 위한 벤치마크인 PseudoBench를 소개합니다. 실험 결과, 현재의 최첨단 에이전트들은 유사과학적 주장에 대한 저항력이 매우 낮아 과학적 정렬이 시급함을 보여줍니다.

핵심 포인트

유사과학 식별 능력을 평가하는 적대적 벤치마크 PseudoBench 제안
7개 최첨단 에이전트 테스트 결과, 유사과학 저항력이 최대 27.4%에 불과
에이전트가 유사과학을 정교한 과학적 언어로 포장하여 신뢰성을 높일 위험 존재
자율 연구 시스템 배포 전 과학적 정렬(Scientific Alignment)의 필요성 강조

Large Language Model (LLM) 기반 에이전트들이 자율적인 과학 연구 분야에 진입함에 따라, 유사과학 (pseudoscience)에 저항하는 능력이 점점 더 중요해지고 있습니다. 그렇지 않으면, 이러한 시스템들은 그럴듯해 보이지만 오해를 불러일으키는 연구를 빠르게 생성하여 학술 문헌을 오염시키고 과학에 대한 신뢰를 떨어뜨릴 수 있습니다. 우리는 에이전트 기반 자동 연구 (agentic auto-research) 시스템이 유사과학적 서사를 식별하고 저항할 수 있는지 평가하기 위한 적대적 벤치마크 (adversarial benchmark)인 PseudoBench를 제시합니다. PseudoBench는 5개 영역에 걸쳐 선별된 200개의 유사과학적 주장-증거 쌍을 포함하며, 실험부터 작성에 이르는 엔드 투 엔드 (end-to-end) 연구 파이프라인을 통해 에이전트를 평가합니다. 7개의 최첨단 (state-of-the-art) 에이전트를 테스트한 결과, 현재의 시스템들은 거부율이 거의 0%에 가깝고 저항력이 최대 27.4%에 불과하여, 유사과학적 전제와 일치하는 설득력 있는 보고서를 쉽게 생성한다는 것을 발견했습니다. 더 강력한 에이전트들은 유사과학을 더욱 정교한 과학적 언어로 포장하여 겉으로 보이는 신뢰성을 높일 위험이 있습니다. 이러한 발견은 유사과학을 조장할 수 있는 우려스러운 능력을 드러내며, 광범위한 배포 이전에 과학적 정렬 (scientific alignment)이 필요함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PseudoBench: 에이전트 기반 자동 연구가 유사과학을 어떻게 조장하는지 측정하기

요약

핵심 포인트

댓글