arXiv논문2026. 05. 14. 07:16

SAGE: LLM 지식 평가를 위한 확장 가능한 자동화된 강건성 증강 (Scalable Automated Robustness

요약

LLMs는 표준 지식 평가에서 강점을 보이지만, 질문 변형에 취약하다는 문제가 있습니다. 이에 본 논문은 확장 가능한 자동화된 강건성 증강 프레임워크인 SAGE(Scalable Automated Generation of Robustness BEnchmarks)를 제안합니다. SAGE는 루브릭 기반 검증기 VariantQual과 강화 학습을 통해 최적화된 변형 생성기 VariantGen으로 구성되어, 낮은 비용으로 고품질의 대규모 강건성 증강 벤치마크 구축이 가능함을 입증했습니다.

핵심 포인트

LLMs는 질문 변형에 대한 지식 평가에서 취약성을 보임.
SAGE 프레임워크는 확장 가능한 자동화된 강건성 증강을 목표로 함.
SAGE는 루브릭 기반 검증기 VariantQual과 강화 학습 최적화 생성기 VariantGen으로 구성됨.
HellaSwag 실험 결과, SAGE가 낮은 비용으로 고품질의 대규모 벤치마크를 구축할 수 있음을 입증함.

대규모 언어 모델 (LLMs)은 표준 지식 평가 벤치마크 (benchmarks)에서 강력한 성능을 달성하지만, 최근 연구에 따르면 동일한 지식을 다른 형태로 테스트하는 질문 변형 (question variants) 하에서 모델의 지식 능력은 여전히 취약한 상태로 남아 있습니다. 따라서 기존 지식 평가 벤치마크의 강건성 증강 (Robustness augmentation)이 필요하지만, 현재의 LLM 지원 생성 후 검증 (generate-then-verify) 파이프라인은 낮은 수율의 변형 생성과 신뢰할 수 없는 변형 검증으로 인해 비용이 많이 들고 확장하기 어렵습니다. 우리는 미세 조정된 (fine-tuned) 더 작은 모델들을 사용하여 지식 평가 벤치마크의 확장 가능한 강건성 증강을 위한 프레임워크인 SAGE (Scalable Automated Generation of Robustness BEnchmarks)를 제안합니다. SAGE는 인간이 라벨링한 시드 데이터 (seed data)로 학습된 루브릭 기반 검증기인 VariantQual과, 지도 미세 조정 (supervised fine-tuning)으로 초기화된 후 VariantQual을 보상 모델 (reward model)로 사용하는 강화 학습 (reinforcement learning)을 통해 추가로 최적화된 변형 생성기인 VariantGen으로 구성됩니다. HellaSwag에 대한 실험 결과, SAGE는 훨씬 더 낮은 비용으로 인간이 주석을 단 HellaSwag-Pro와 대등한 품질의 대규모 강건성 증강 벤치마크를 구축함을 보여주었으며, 미세 조정된 모델들은 벤치마크 특화 미세 조정 (benchmark-specific fine-tuning) 없이도 MMLU로 추가 일반화됨을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SAGE: LLM 지식 평가를 위한 확장 가능한 자동화된 강건성 증강 (Scalable Automated Robustness

요약

핵심 포인트

댓글