SemEval-2026 Task 8 우승 시스템 소개: Judge-Orchestrated LLM 앙상블을 활용한 충실한 다중 턴 응답 생성

우리는 SemEval-2026 Task 8 (MTRAGEval): MTRAGEval 의 Task~B(참조 문서 활용 생성) 에서 우승한 시스템을 소개합니다. 우리의 방법은 GPT-4o-mini 판사가 각 인스턴스별로 최선의 후보를 선택하는 두 가지 프롬프트 변형이 포함된 7 개 LLM 을 포함한 이종 앙상블입니다. 우리는 26 팀 중 1 위로, 조건부 조화 평균 (0.7827) 을 달성하고 가장 강력한 베이스라인 (gpt-oss-120b, 0.6390) 을 상회했습니다. Ablation(감소 분석) 은 모델 계열, 규모, 프롬프트 전략의 다양성이 필수적임을 보여주며, 앙상블은 단일 모델을 일관되게 능가합니다. 우리는 또한 비용 - 성능 트레이드오프가 강력한 7B 도메인 적응 모델인 Meno-Lite-0.1 을 소개하고, MTRAGEval 을 분석하여 주석의 한계와 개선 방향을 강조합니다. 우리의 코드는 공개되어 있습니다: https://github.com/RaguTeam/ragu_mtrag_semeval

Insights

SemEval-2026 Task 8 우승 시스템 소개: Judge-Orchestrated LLM 앙상블을 활용한 충실한 다중 턴 응답 생성

요약

핵심 포인트

댓글

DFINITY, 사용자의 Internet Identity를 통해 TAGGR에 게시물을 올리는 AI 에이전트 시연

AI를 활용하여 수십 개의 트레이딩 전략을 테스트, 구축 및 자동화해 본 경험

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?

AI를 활용하여 수십 개의 트레이딩 전략을 테스트, 구축 및 자동화해 본 경험

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?