SemEval-2026 Task 6: 정치 담론의 응답 명확성 및 회피 감지 (CLaC) 시스템 소개

본 논문에서는 미국 대통령 인터뷰의 질문 - 답변 쌍에서 응답의 명확성과 회피 감지를 위한 SemEval-2026 Task 6 (CLARITY) 을 위한 시스템을 제시하며, 미세 조정된 인코더와 프롬프트 기반 LLM 을 비교합니다. 우리의 LLM 앙상블은 3 클래스 Task 1(9 번째/41 번째) 에서 80 의 매크로 F1 점수를, 9 클래스 Task 2(3 번째/33 번째) 에서 59 점을 달성했습니다. 4 단계 파이프라인을 통해 최적화된 8 개의 트랜스포머 인코더를 거쳤으며, 부분적 인코더 레이어 언프리즈는 전체 미세 조정보다는 훨씬 큰 격차로 우위를 보였습니다. 영어 및 다국어 인코더의 결합은 개별적으로 더 약한 다국어 모델을 사용하더라도 두 계열 중 하나보다 앙상블 성능을 향상시켰습니다. 임무 특화 파라미터 업데이트 없이 프롬프트 기반 LLM 은 미세 조정된 인코더를 능가하며, 특히 소수 클래스에서 우위를 보였습니다. 오픈 웨이트 LLM 들 사이에서는 파라미터 수가 성능을 예측하지 못했습니다. enriched input(전체 인터뷰어 턴을 연결) 은 LLM 성능을 향상시켰지만 인코더 성능은 개선되지 않았으며, Longformer 의 확장된 컨텍스트 윈도우에서도 이 효과가 지속되어 우리의 설정에서 분리는 순차 길이 용량 alone 에 기인하지 않는다는 것을 시사합니다. Clear Reply/Ambivalent 경계는 인간 주석자들 간의 불일치를 반영하는 주요 실패 모드로 남았습니다. 우리의 코드, 프롬프트, 모델 구성 및 결과는 공개적으로 이용 가능합니다.

Insights

SemEval-2026 Task 6: 정치 담론의 응답 명확성 및 회피 감지 (CLaC) 시스템 소개

요약

핵심 포인트

댓글

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다