arXiv논문2026. 06. 26. 10:48

NuclearQAv2: 대규모 언어 모델(LLM)의 도메인 과학 역량 평가를 위한 구조화된 벤치마크

요약

원자력 공학 분야의 LLM 역량을 평가하기 위한 새로운 벤치마크인 NuclearQAv2를 소개합니다. 이 벤치마크는 불리언, 수치, 언어 범주의 1,240개 질문으로 구성되어 모델의 정량적 추론과 개념적 이해를 측정합니다.

핵심 포인트

원자력 공학 특화 벤치마크 NuclearQAv2 제안
불리언, 수치, 언어 등 3가지 범주의 질문-답변 쌍 포함
전문가 작성 및 LLM 보조 생성 하이브리드 파이프라인 활용
LLM이 사실적 질문에는 강하나 정량적 추론에는 취약함을 확인

대규모 언어 모델 (LLMs)은 광범위한 작업에서 강력한 성능을 입증해 왔으나, 고도로 전문적인 도메인에서 이들의 신뢰성을 보장하는 것은 여전히 중요한 과제로 남아 있습니다. 원자력 공학 (nuclear engineering) 분야에서 문제 해결은 종종 사실적 지식뿐만 아니라 정량적 추론 (quantitative reasoning) 및 개념적 이해 (conceptual understanding)를 요구합니다. 이 도메인에서의 체계적인 평가 필요성을 해결하기 위해, 우리는 원자력 공학 지식에 대한 LLM을 평가하기 위한 벤치마크인 NuclearQAv2를 소개합니다. 이 벤치마크는 boolean (불리언), numeric (수치), verbal (언어)의 세 가지 범주에 걸쳐 약 1,240개의 질문-답변 쌍으로 구성됩니다. NuclearQAv2는 전문가가 작성한 질문, 기존 데이터셋, 그리고 도메인 특화 기술 코퍼스 (technical corpora)로부터의 LLM 보조 생성 (LLM-assisted generation)을 결합한 하이브리드 파이프라인을 사용하여 구축되었습니다. 자동 질문 생성 및 응답 평가 모두를 위해 구조화된 프롬프팅 (structured prompting)을 활용함으로써, 제안된 프레임워크는 확장 가능한 벤치마크 구축 및 평가를 가능하게 합니다. 우리는 NuclearQAv2를 사용하여 다양한 LLM 세트를 평가하였으며, 작업 유형에 따라 상당한 성능 차이가 있음을 관찰했습니다. 모델들은 일반적으로 사실적 질문에는 잘 수행하지만, 정량적 추론과 개념적 이해는 여전히 상당히 더 어려운 과제로 남아 있습니다. 이러한 결과는 다각적인 평가 프레임워크의 중요성을 강조하며, NuclearQAv2를 기술적 도메인에서 LLM 역량을 평가하기 위한 확장 가능한 벤치마크로 확립합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NuclearQAv2: 대규모 언어 모델(LLM)의 도메인 과학 역량 평가를 위한 구조화된 벤치마크

요약

핵심 포인트

댓글