SCICONVBENCH: 계산 과학의 작업 정식화를 위한 다회차 명확화(Multi-Turn Clarification)에 대한 LLM 벤치마킹
요약
SCICONVBENCH는 계산 과학 분야에서 불명확한 사용자 요청을 정제하기 위한 LLM의 다회차 명확화(multi-turn clarification) 능력을 평가하는 새로운 벤치마크입니다. 유체 역학, 재료 과학 등 네 가지 영역을 대상으로 모호성 해소와 불일치 해결 능력을 측정하며, 현재의 최첨단 모델들이 여전히 모호성 해소와 암묵적 가정 문제에서 한계를 보임을 입증합니다.
핵심 포인트
- 계산 과학의 실제 환경처럼 불명확하게 정의된(ill-posed) 요청을 다루는 상류 단계 대화 추론 평가에 집중함
- 모호성 해소(disambiguation)와 불일치 해결(inconsistency resolution)이라는 두 가지 핵심 능력을 목표로 함
- 구조화된 작업 온톨로지와 루브릭 기반 프레임워크를 통해 명확화 행동, 대화 근거, 최종 사양 충실도를 체계적으로 측정함
- 최첨단 모델들이 유체 역학의 모호성 해소에서 낮은 성능을 보이며, 대화에 근거하지 않은 암묵적 사양 수정을 수행하는 경향이 있음을 발견함
대규모 언어 모델 (LLMs)은 과학적 AI 어시스턴트로 점점 더 많이 배치되고 있으며, 지식 검색 (knowledge retrieval), 추론 (reasoning), 코드 생성 (code generation) 및 도구 사용 (tool use) 전반에 걸친 능력을 평가하는 벤치마크가 늘어나고 있습니다. 그러나 이러한 평가들은 일반적으로 과학적 문제가 이미 잘 정의되어 있다고 가정합니다. 반면, 실제적인 과학적 지원은 종종 계산, 분석 또는 실험을 신뢰성 있게 수행하기 전에 대화를 통해 정제되어야 하는 불명확하게 정의된 (ill-posed) 사용자 요청에서 시작됩니다. 우리는 유체 역학 (fluid mechanics), 고체 역학 (solid mechanics), 재료 과학 (materials science), 그리고 편미분 방정식 (PDEs)의 네 가지 계산 과학 문제 영역에 걸쳐 과학적 작업 정식화 (task formulation)를 위한 다회차 명확화 (multi-turn clarification) 벤치마크인 SCICONVBENCH를 소개합니다. SCICONVBENCH는 두 가지 상호 보완적인 능력을 목표로 합니다: 누락된 정보를 이끌어내는 것 (disambiguation, 모호성 해소)과 내부적으로 모순된 정보를 포함하는 잘못된 요청을 탐지하고 수정하는 것 (inconsistency resolution, 불일치 해결). 우리의 벤치마크는 구조화된 작업 온톨로지 (task ontology)를 루브릭 기반 평가 프레임워크 (rubric-based evaluation framework)와 결합하여, 명확화 행동 (clarification behavior), 대화 근거 (conversational grounding), 최종 사양 충실도 (final-specification fidelity)의 세 가지 차원에서 LLM 성능을 체계적으로 측정할 수 있게 합니다. 현재의 최첨단 모델 (frontier models)은 불일치 해결 (inconsistency resolution)에서는 비교적 좋은 성능을 보이지만, 가장 우수한 모델조차 유체 역학에서의 모호성 해소 (disambiguation) 사례 중 52.7%만을 해결합니다. 우리는 더 나아가 최첨단 LLM들이 빈번하게 암묵적인 가정을 하고, 사용자와의 대화에 근거하지 않은 암묵적인 사양 수정 (implicit specification repairs)을 수행한다는 것을 발견했습니다. SCICONVBENCH는 신뢰할 수 있는 계산 과학 어시스턴트가 필요로 하는 상류 단계의 대화 추론 (upstream conversational reasoning)을 평가하기 위한 토대를 마련합니다. 코드와 데이터는 https://github.com/csml-rpi/SciConvBench 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기