MADE: 미세한 평가 통찰력을 위한 다국어 에이전트 진단 엔진을 통한 점수 산출 그 이상의 가치
요약
MADE는 다국어 및 다문화 LLM 평가 시 단순 점수 산출을 넘어 미세한 진단 통찰력을 제공하는 에이전트 엔진입니다. 계획, 분석, 사례 조사, 성찰, 보고서 합성의 5단계 프로세스를 통해 기존 베이스라인보다 월등한 진단 품질을 보여줍니다.
핵심 포인트
- 다국어 에이전트 진단 엔진 MADE 제안
- 5단계 분해 프로세스를 통한 정밀한 사후 평가 수행
- 기존 베이스라인 대비 진단 보고서 품질 47% 향상
- 다국어 전문가로부터 87.9%의 높은 선호도 획득
- 단순 점수를 넘어 실행 가능한 모델 교정 가이드 제공
다국어 및 다문화 벤치마크 (Benchmarks)가 이제 수십 개의 언어와 모델 제품군을 아우르고 있지만, 그 결과로 나타나는 점수 지형은 지표는 풍부하나 통찰력은 부족한 상태로 남아 있어, 미세한 다국어 사후 평가 진단 (Post-evaluation diagnosis)이 필수적입니다. 그러나 단일 LLM (Large Language Models) 및 개방형 에이전트 (Open-ended agents)는 길고 노이즈가 많은 진단 입력값에 쉽게 압도되며, 이를 위한 재사용 가능한 분류 체계 (Taxonomy)도 존재하지 않습니다. 이를 해결하기 위해, 우리는 사후 평가 분석을 계획 (Planning), 종합 분석 (Aggregate analysis), 인스턴스 수준의 사례 조사 (Instance-level case inspection), 다국어 및 문화적 성찰 (Multilingual and cultural reflection), 그리고 근거 기반 보고서 합성 (Grounded report synthesis)으로 분해하는 다국어 에이전트 진단 엔진 (Multilingual Agentic Diagnosing Engine)인 MADE를 제안합니다. MADE는 전문가가 주도한 54개 질의 및 15개 언어 진단 세트와 결합되었으며, 대규모 다국어 평가 기질 (Multilingual evaluation substrate; 33개 모델 제품군, 11개 벤치마크, 26개 언어, 34개 문화, 866만 개의 평가 기록) 위에서 평가되었습니다. 실험 결과, MADE는 진단 보고서 품질 면에서 가장 강력한 공유 베이스라인 (Shared baseline)보다 47% 더 우수한 성능을 보였으며, 쌍체 비교 (Pairwise comparisons)에서 다국어 전문가들로부터 87.9%의 선호도를 얻었습니다. 다국어 전문가와 함께 적용했을 때, MADE는 배포, 반복, 그리고 교차 문화적 함정에 관한 네 가지 실행 가능한 발견 사항을 추가로 도출하여, 벤치마크 점수 표를 모델 선택 및 교정 가이드로 전환합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기