본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:33

SemEval-2026 Task 8 우승 시스템 소개: Judge-Orchestrated LLM 앙상블을 활용한 충실한 다중 턴 응답 생성

요약

본 기사는 SemEval-2026 Task 8 (MTRAGEval)에서 우승한 'Judge-Orchestrated LLM 앙상블' 시스템을 소개합니다. 이 시스템은 GPT-4o-mini 판사를 활용하여 최적의 후보를 선택하는 두 가지 프롬프트 변형이 포함된 총 7개의 이종(heterogeneous) LLM으로 구성되어 있습니다. 이를 통해 26개 팀 중 1위를 차지하며 강력한 성능을 입증했습니다. 또한, 비용 효율적이면서도 강력한 7B 도메인 적응 모델인 Meno-Lite-0.1을 제시하고, MTRAGEval의 분석을 통해 주석(annotation)의 한계와 향후 개선 방향을 논의합니다.

핵심 포인트

  • SemEval-2026 Task 8 (MTRAGEval)에서 GPT-4o-mini 판사를 활용한 이종 LLM 앙상블 시스템으로 우승함.
  • 시스템은 총 7개의 다양한 LLM과 두 가지 프롬프트 변형을 결합하여 단일 모델의 성능을 능가하는 시너지를 창출함.
  • Ablation Study를 통해 모델 계열, 규모, 그리고 프롬프트 전략의 다양성이 성공적인 앙상블에 필수적임을 입증함.
  • 비용 효율성을 고려한 7B 도메인 적응 모델 'Meno-Lite-0.1'을 제시하여 실용적인 대안을 제공함.

우리는 SemEval-2026 Task 8 (MTRAGEval): MTRAGEval 의 Task~B(참조 문서 활용 생성) 에서 우승한 시스템을 소개합니다. 우리의 방법은 GPT-4o-mini 판사가 각 인스턴스별로 최선의 후보를 선택하는 두 가지 프롬프트 변형이 포함된 7 개 LLM 을 포함한 이종 앙상블입니다. 우리는 26 팀 중 1 위로, 조건부 조화 평균 (0.7827) 을 달성하고 가장 강력한 베이스라인 (gpt-oss-120b, 0.6390) 을 상회했습니다. Ablation(감소 분석) 은 모델 계열, 규모, 프롬프트 전략의 다양성이 필수적임을 보여주며, 앙상블은 단일 모델을 일관되게 능가합니다. 우리는 또한 비용 - 성능 트레이드오프가 강력한 7B 도메인 적응 모델인 Meno-Lite-0.1 을 소개하고, MTRAGEval 을 분석하여 주석의 한계와 개선 방향을 강조합니다. 우리의 코드는 공개되어 있습니다: https://github.com/RaguTeam/ragu_mtrag_semeval

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0