DiscoverPhysics: 즉각적인 과학적 사고를 위한 LLM 벤치마킹
요약
LLM이 새로운 물리 법칙을 발견할 수 있는지 평가하는 대화형 벤치마크인 DiscoverPhysics를 소개합니다. 에이전트가 시뮬레이션 세계의 데이터를 관찰하고 가설을 세워 물리 법칙을 추론하는 능력을 측정합니다.
핵심 포인트
- 물리 법칙 발견을 위한 22개의 다양한 시뮬레이션 세계 구축
- 실험 설계 및 가설 수정을 통한 장기적 추론 능력 평가
- 최첨단 모델들도 물리적 잠재 구조 파악에 한계를 보임
- 오픈 소스 모델은 상용 모델 대비 실험 설계 능력이 부족함
- 높은 예측 정확도가 반드시 개념적 이해를 보장하지 않음
최첨단 LLM (Frontier LLMs)은 이제 광범위한 물리 평가에서 강력한 성능을 발휘하지만, 진정한 추론과 이미 확립된 과학 지식의 회상 (recall)을 구분하기는 어렵습니다. 우리는 LLM 에이전트가 우리 세계와 의도적으로 다르게 설정된 물리 법칙을 가진 시뮬레이션 세계의 운동 법칙을 발견하도록 요구하는 대화형 벤치마크인 DiscoverPhysics를 소개합니다. 우리는 스크리닝된 중력 및 분수 거듭제곱 중력 (fractional-power gravity), 다종 결합 (multi-species couplings), 숨겨진 암흑 물질 유사 입자 (hidden dark-matter-like particles), 비좌표 자유 물리 (non-coordinate-free physics), 그리고 시간에 따라 변하는 상호작용 (time-varying interactions) 등을 포함하여 구성된 22개의 세계를 구축했습니다. 각 세계는 N-body 시뮬레이터 (N-body simulator)에 의해 요청 시 생성되며, 에이전트는 여러 차례의 실험을 제안하고, 가공되지 않은 궤적 데이터 (raw trajectory data)를 관찰하며, 최종적으로 해당 세계의 물리 법칙에 대한 자연어 설명과 추론된 법칙의 Python 구현을 제출합니다. 하나의 세계를 해결하기 위해서는 에이전트가 유익한 실험을 설계하고 가설을 수정해야 하므로, 이 벤치마크는 실험 이력에 대한 장기적 추론 (long-horizon reasoning)을 조사합니다. 우리는 두 가지 상호 보완적인 축을 따라 제출물을 평가합니다: 홀드아웃 입자 (held-out particles)에 대한 궤적 MSE (trajectory MSE)와 각 세계에 대한 개념적 이해를 평가하는 전문가 작성 루브릭 (rubric)에 따른 LLM 판단 설명 점수입니다. 11개의 최첨단 모델을 평가한 결과, 가장 강력한 에이전트들도 세계의 절반만을 통과했으며, 잠재적 구조 (latent structure)를 밝혀내야 하는 문제에서는 지속적으로 실패함을 발견했습니다. 오픈 소스 모델은 유익한 실험을 설계하는 능력과 데이터로부터 결론을 도출하는 능력 모두에서 상용 모델에 비해 크게 뒤처집니다. 나아가 우리는 높은 예측 정확도가 높은 설명 품질을 보장하지 않으며, 개념적 이해는 잘 선택된 실험을 통한 가설 정교화 (hypothesis refinement)에 달려 있다는 것을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기