arXiv논문2026. 04. 28. 15:10

STELLAR-E: 맞춤형 엔드투엔드 LLM 애플리케이션 엄밀한 평가자를 위한 합성 데이터 시스템

요약

본 논문은 사생활 보호 및 비용 문제로 인해 기존 데이터셋 확보가 어려운 상황에서, 사용자 지정 크기의 고품질 합성 데이터셋을 생성할 수 있는 전자동 시스템 STELLAR-E를 제안합니다. 이 시스템은 TGRT Self-Instruct 프레임워크 기반의 합성 데이터 엔진과 통계적/LLM 기반 평가 파이프라인으로 구성되어 있습니다. STELLAR-E는 기존 벤치마킹 대비 높은 성능 향상을 보여주며, 대형 및 소형 LLM을 포괄적으로 평가할 수 있는 확장 가능하고 공정한 자동화 품질 보증 프레임워크를 제공합니다.

핵심 포인트

STELLAR-E는 최소한의 인간 입력만으로 사용자 지정 크기의 고품질 합성 데이터셋을 생성하는 전자동 시스템이다.
시스템은 TGRT Self-Instruct 프레임워크 기반 엔진과 통합 평가 파이프라인으로 구성되어 있다.
합성 데이터셋은 기존 벤치마킹 대비 LLM-as-a-judge 점수에서 평균 +5.7%의 성능 향상을 입증했다.
STELLAR-E는 대형 및 소형 LLM 모두를 포괄적으로 평가할 수 있는 확장 가능하고 도메인 적응형 프레임워크를 제공한다.

다양한 분야에서 대형 언어 모델 (LLMs) 에 대한 의존도가 높아짐에 따라 견고한 도메인 특화 및 언어 특화 평가 데이터셋의 필요성이 대두되고 있으나, 사생활 보호 우려, 규제 제한 사항, 그리고 수동 생성에 소요되는 시간 비용으로 인해 이러한 데이터셋을 수집하는 것은 어렵습니다. 기존 자동 벤치마킹 방법은 주로 기존 데이터를 활용한다는 점, 확장성이 부족하다는 점, 단일 도메인 중심이라는 점, 다국어 지원 부재라는 한계를 가지고 있습니다. 우리는 최소한의 인간 입력에만 의존하고 기존 데이터셋에 의존하지 않으면서 사용자 지정 크기의 고품질 합성 데이터셋을 생성할 수 있는 전자동 시스템 STELLAR-E 를 제안합니다. 이 시스템은 두 단계로 구성되어 있습니다: (1) TGRT Self-Instruct 프레임워크를 수정하여 제어 가능하고 사용자 지정 가능한 합성 데이터셋 생성이 가능한 합성 데이터 엔진을 구축하는 단계, (2) LLM 기반 애플리케이션 평가를 위한 합성 데이터셋의 적용성을 평가하기 위해 통계적 지표와 LLM 기반 지표를 통합한 평가 파이프라인을 구축하는 단계입니다. 합성 데이터셋은 기존 언어 특화 벤치마킹 대비 LLM-as-a-judge 점수에서 평균 +5.7% 의 차이를 보이며, 대형 및 소형 LLM 을 포괄적으로 평가하기 위해 비교 가능한 품질을 입증합니다. 실제 데이터셋은 특히 소형 모델의 경우 LLM 에 대해 약간 더 어려운 도전 과제를 제시하지만, 본 연구는 LLM 애플리케이션의 공정한 평가를 지원하는 확장 가능하고 도메인 적응형 벤치마킹 프레임워크를 확립하여 수동 방식보다 빠른 대안을 제공하며 고효율 자동화 품질 보증 사이클을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

STELLAR-E: 맞춤형 엔드투엔드 LLM 애플리케이션 엄밀한 평가자를 위한 합성 데이터 시스템

요약

핵심 포인트

댓글