SciCustom: 대규모 언어 모델(LLM)의 과학적 역량 맞춤형 평가를 위한 프레임워크

대규모 언어 모델 (LLMs)이 과학 연구에 점점 더 많이 적용되고 있지만, 기존의 평가 방식은 실제 현장에서 요구되는 세밀한 역량을 반영하지 못하는 경우가 많습니다. 대부분의 벤치마크 (Benchmarks)는 수동으로 큐레이션되거나 도메인 범용적(domain-generic)이어서, 확장성과 실제 과학적 활용 사례와의 정렬(alignment)에 한계가 있습니다. 본 논문에서는 이 문제를 해결하기 위해 SciCustom이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 대규모 과학 데이터로부터 벤치마크를 맞춤형으로 구축하여, LLM의 특정 애플리케이션에 특화된 과학적 역량을 평가할 수 있게 합니다. SciCustom은 먼저 과학적 지식을 제어된 입도(granularity)를 가진 온톨로지 기반(ontology-grounded) 지식 단위로 구성하고, 대규모 데이터 인스턴스를 이 지식 공간으로 매핑하는 태거 (tagger)를 학습시킵니다. 맞춤형 요구사항이 주어지면, 투표 기반의 다중 모델 합의 (voting-based multi-model consensus)를 통해 관련 지식 단위를 식별합니다. 이러한 단위들은 이진 탐색 (binary search)을 통한 관련성 인식 벤치마크 검색을 가능하게 하며, 이어서 효율적인 평가를 위한 프록시 서브셋 선택 (proxy subset selection) 및 데이터 기반 벤치마크 생성으로 이어집니다. 화학 및 의료 분야에서의 실험을 통해, SciCustom은 전문가의 주석 (annotation)이나 합성 질문 생성 (synthetic question generation) 없이도 표준 벤치마크가 간과하는 LLM 과학적 역량의 세밀한 차이를 드러낸다는 것을 입증했습니다. 본 연구는 LLM의 과학적 역량을 벤치마킹하기 위한 확장 가능하고 애플리케이션을 인식하는 기반을 제공합니다. 소스 코드는 https://github.com/yjwtheonly/SciCustom 에서 확인할 수 있습니다.

Insights

SciCustom: 대규모 언어 모델(LLM)의 과학적 역량 맞춤형 평가를 위한 프레임워크

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어