arXiv논문2026. 05. 19. 17:27

SCICONVBENCH: 계산 과학의 작업 정식화를 위한 다회차 명확화(Multi-Turn Clarification)에 대한 LLM 벤치마킹

요약

SCICONVBENCH는 계산 과학 분야에서 불명확한 사용자 요청을 정제하기 위한 LLM의 다회차 명확화(multi-turn clarification) 능력을 평가하는 새로운 벤치마크입니다. 유체 역학, 재료 과학 등 네 가지 영역을 대상으로 모호성 해소와 불일치 해결 능력을 측정하며, 현재의 최첨단 모델들이 여전히 모호성 해소와 암묵적 가정 문제에서 한계를 보임을 입증합니다.

핵심 포인트

계산 과학의 실제 환경처럼 불명확하게 정의된(ill-posed) 요청을 다루는 상류 단계 대화 추론 평가에 집중함
모호성 해소(disambiguation)와 불일치 해결(inconsistency resolution)이라는 두 가지 핵심 능력을 목표로 함
구조화된 작업 온톨로지와 루브릭 기반 프레임워크를 통해 명확화 행동, 대화 근거, 최종 사양 충실도를 체계적으로 측정함
최첨단 모델들이 유체 역학의 모호성 해소에서 낮은 성능을 보이며, 대화에 근거하지 않은 암묵적 사양 수정을 수행하는 경향이 있음을 발견함

대규모 언어 모델 (LLMs)은 과학적 AI 어시스턴트로 점점 더 많이 배치되고 있으며, 지식 검색 (knowledge retrieval), 추론 (reasoning), 코드 생성 (code generation) 및 도구 사용 (tool use) 전반에 걸친 능력을 평가하는 벤치마크가 늘어나고 있습니다. 그러나 이러한 평가들은 일반적으로 과학적 문제가 이미 잘 정의되어 있다고 가정합니다. 반면, 실제적인 과학적 지원은 종종 계산, 분석 또는 실험을 신뢰성 있게 수행하기 전에 대화를 통해 정제되어야 하는 불명확하게 정의된 (ill-posed) 사용자 요청에서 시작됩니다. 우리는 유체 역학 (fluid mechanics), 고체 역학 (solid mechanics), 재료 과학 (materials science), 그리고 편미분 방정식 (PDEs)의 네 가지 계산 과학 문제 영역에 걸쳐 과학적 작업 정식화 (task formulation)를 위한 다회차 명확화 (multi-turn clarification) 벤치마크인 SCICONVBENCH를 소개합니다. SCICONVBENCH는 두 가지 상호 보완적인 능력을 목표로 합니다: 누락된 정보를 이끌어내는 것 (disambiguation, 모호성 해소)과 내부적으로 모순된 정보를 포함하는 잘못된 요청을 탐지하고 수정하는 것 (inconsistency resolution, 불일치 해결). 우리의 벤치마크는 구조화된 작업 온톨로지 (task ontology)를 루브릭 기반 평가 프레임워크 (rubric-based evaluation framework)와 결합하여, 명확화 행동 (clarification behavior), 대화 근거 (conversational grounding), 최종 사양 충실도 (final-specification fidelity)의 세 가지 차원에서 LLM 성능을 체계적으로 측정할 수 있게 합니다. 현재의 최첨단 모델 (frontier models)은 불일치 해결 (inconsistency resolution)에서는 비교적 좋은 성능을 보이지만, 가장 우수한 모델조차 유체 역학에서의 모호성 해소 (disambiguation) 사례 중 52.7%만을 해결합니다. 우리는 더 나아가 최첨단 LLM들이 빈번하게 암묵적인 가정을 하고, 사용자와의 대화에 근거하지 않은 암묵적인 사양 수정 (implicit specification repairs)을 수행한다는 것을 발견했습니다. SCICONVBENCH는 신뢰할 수 있는 계산 과학 어시스턴트가 필요로 하는 상류 단계의 대화 추론 (upstream conversational reasoning)을 평가하기 위한 토대를 마련합니다. 코드와 데이터는 https://github.com/csml-rpi/SciConvBench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SCICONVBENCH: 계산 과학의 작업 정식화를 위한 다회차 명확화(Multi-Turn Clarification)에 대한 LLM 벤치마킹

요약

핵심 포인트

댓글