본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

SciCustom: 대규모 언어 모델(LLM)의 과학적 역량 맞춤형 평가를 위한 프레임워크

요약

SciCustom은 기존 벤치마크가 LLM의 세밀한 과학적 역량을 반영하지 못하는 한계를 극복하기 위해 제안된 맞춤형 평가 프레임워크입니다. 온톨로지 기반의 지식 단위와 다중 모델 합의 방식을 활용하여, 대규모 과학 데이터로부터 특정 애플리케이션에 특화된 벤치마크를 자동으로 구축합니다. 화학 및 의료 분야 실험을 통해 전문가의 주석 없이도 LLM의 과학적 역량 차이를 효과적으로 식별할 수 있음을 입증했습니다.

핵심 포인트

  • 온톨로지 기반의 제어된 지식 단위를 사용하여 과학적 지식을 구조화함
  • 투표 기반의 다중 모델 합의 및 이진 탐색을 통해 관련성 높은 벤치마크 검색 가능
  • 전문가의 수동 주석이나 합성 질문 생성 없이도 효율적인 벤치마크 생성 가능
  • 화학 및 의료 분야에서 기존 벤치마크가 놓치는 LLM의 세밀한 역량 차이를 포착

대규모 언어 모델 (LLMs)이 과학 연구에 점점 더 많이 적용되고 있지만, 기존의 평가 방식은 실제 현장에서 요구되는 세밀한 역량을 반영하지 못하는 경우가 많습니다. 대부분의 벤치마크 (Benchmarks)는 수동으로 큐레이션되거나 도메인 범용적(domain-generic)이어서, 확장성과 실제 과학적 활용 사례와의 정렬(alignment)에 한계가 있습니다. 본 논문에서는 이 문제를 해결하기 위해 SciCustom이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 대규모 과학 데이터로부터 벤치마크를 맞춤형으로 구축하여, LLM의 특정 애플리케이션에 특화된 과학적 역량을 평가할 수 있게 합니다. SciCustom은 먼저 과학적 지식을 제어된 입도(granularity)를 가진 온톨로지 기반(ontology-grounded) 지식 단위로 구성하고, 대규모 데이터 인스턴스를 이 지식 공간으로 매핑하는 태거 (tagger)를 학습시킵니다. 맞춤형 요구사항이 주어지면, 투표 기반의 다중 모델 합의 (voting-based multi-model consensus)를 통해 관련 지식 단위를 식별합니다. 이러한 단위들은 이진 탐색 (binary search)을 통한 관련성 인식 벤치마크 검색을 가능하게 하며, 이어서 효율적인 평가를 위한 프록시 서브셋 선택 (proxy subset selection) 및 데이터 기반 벤치마크 생성으로 이어집니다. 화학 및 의료 분야에서의 실험을 통해, SciCustom은 전문가의 주석 (annotation)이나 합성 질문 생성 (synthetic question generation) 없이도 표준 벤치마크가 간과하는 LLM 과학적 역량의 세밀한 차이를 드러낸다는 것을 입증했습니다. 본 연구는 LLM의 과학적 역량을 벤치마킹하기 위한 확장 가능하고 애플리케이션을 인식하는 기반을 제공합니다. 소스 코드는 https://github.com/yjwtheonly/SciCustom 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0