SenseJudge: 인간 중심의 선호도 기반 판단 프레임워크
요약
기존 LLM 판사 모델의 고정된 선호도 한계를 극복하기 위해 인간 중심의 맞춤형 판단 프레임워크인 SenseJudge와 벤치마크 SenseBench를 제안합니다. 실험 결과, SenseJudge는 개인화된 판단과 모델 순위 매기기 작업에서 인간의 선호도와 높은 일치성을 보이며 우수한 성능을 입증했습니다.
핵심 포인트
- 인간의 다양한 선호도를 반영하는 맞춤형 판단 프레임워크 제안
- 다회차 상호작용 기반의 지시 이행 벤치마크 SenseBench 구축
- 개인화된 판사 및 모델 순위 매기기 작업에서 기존 방식 능가
- 위치 편향 및 일관성 분석을 통한 프레임워크의 견고함 확인
모델 응답 평가와 같은 다양한 시나리오에서 판사(judges)로서의 대규모 언어 모델 (LLMs) 활용은 점점 더 수용되는 패러다임이 되고 있습니다. 그러나 기존의 판단 방식은 고정된 선호도 데이터를 사용하는 학습된 판사 (judgers)에 의존하는 경우가 많으며, 이는 다양한 사용자 선호도를 간과하고 실제 인간-AI 대화 시나리오에 적응하는 데 어려움을 겪는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 인간의 선호도에 의해 구동되는 맞춤형 판단 프레임워크인 SenseJudge와 실제 다회차 (multi-turn) 상호작용에서 파생된 다양하고 도전적인 지시 이행 (instruction-following) 벤치마크인 SenseBench를 제안합니다. 우리는 이 자동 판단 프레임워크와 벤치마크를 두 가지 작업에 적용했습니다: (1) 개인화된 판사로서의 LLMs, 그리고 (2) 모델 순위 매기기 (model ranking). 우리는 광범위한 실험을 수행하였으며, 결과에 따르면 SenseJudge 프레임워크는 '개인화된 판사로서의 LLMs' 작업에서 다른 판단 방법 및 모델을 능가하며, 실제 인간의 감각과 일치하는 모델 순위를 달성함을 보여줍니다. 또한, 위치 편향 (position bias) 및 일관성 (consistency)에 대한 분석과 함께 제거 연구 (ablation studies)를 수행하여 SenseJudge의 견고함 (robustness)을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기