본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 16:47

SemEval-2026 Task 6: 정치 담론의 응답 명확성 및 회피 감지 (CLaC) 시스템 소개

요약

본 논문은 미국 대통령 인터뷰 질문-답변 쌍에서 응답의 명확성(Clarity)과 회피(Evasion)를 감지하는 SemEval-2026 Task 6 (CLARITY) 시스템을 제안합니다. 연구진은 미세 조정된 인코더와 프롬프트 기반 LLM을 비교했으며, 특히 최적화된 트랜스포머 인코더 앙상블과 적절한 프롬프팅 기법이 높은 성능을 보였습니다. 또한, 다국어 모델의 결합이나 전체 인터뷰 맥락(enriched input) 제공 등 다양한 실험 설정을 통해 LLM 및 인코더의 강점과 한계를 분석했습니다.

핵심 포인트

  • 응답 명확성/회피 감지 시스템은 미세 조정된 트랜스포머 인코더 앙상블을 통해 높은 성능(예: Task 1에서 매크로 F1 80점)을 달성했습니다.
  • 프롬프트 기반 LLM은 파라미터 업데이트 없이도 미세 조정된 인코더를 능가하는 성능을 보였으며, 특히 소수 클래스 분류에 강점을 나타냈습니다.
  • 다국어 모델의 경우, 영어 및 다국어 인코더를 결합하는 앙상블 방식이 개별 모델보다 우수한 성능 향상을 가져왔습니다.
  • 전체 인터뷰 맥락(enriched input)을 제공하는 것이 LLM 성능에는 도움이 되었으나, 트랜스포머 인코더의 성능 개선으로 이어지지는 않았습니다.

본 논문에서는 미국 대통령 인터뷰의 질문 - 답변 쌍에서 응답의 명확성과 회피 감지를 위한 SemEval-2026 Task 6 (CLARITY) 을 위한 시스템을 제시하며, 미세 조정된 인코더와 프롬프트 기반 LLM 을 비교합니다. 우리의 LLM 앙상블은 3 클래스 Task 1(9 번째/41 번째) 에서 80 의 매크로 F1 점수를, 9 클래스 Task 2(3 번째/33 번째) 에서 59 점을 달성했습니다. 4 단계 파이프라인을 통해 최적화된 8 개의 트랜스포머 인코더를 거쳤으며, 부분적 인코더 레이어 언프리즈는 전체 미세 조정보다는 훨씬 큰 격차로 우위를 보였습니다. 영어 및 다국어 인코더의 결합은 개별적으로 더 약한 다국어 모델을 사용하더라도 두 계열 중 하나보다 앙상블 성능을 향상시켰습니다. 임무 특화 파라미터 업데이트 없이 프롬프트 기반 LLM 은 미세 조정된 인코더를 능가하며, 특히 소수 클래스에서 우위를 보였습니다. 오픈 웨이트 LLM 들 사이에서는 파라미터 수가 성능을 예측하지 못했습니다. enriched input(전체 인터뷰어 턴을 연결) 은 LLM 성능을 향상시켰지만 인코더 성능은 개선되지 않았으며, Longformer 의 확장된 컨텍스트 윈도우에서도 이 효과가 지속되어 우리의 설정에서 분리는 순차 길이 용량 alone 에 기인하지 않는다는 것을 시사합니다. Clear Reply/Ambivalent 경계는 인간 주석자들 간의 불일치를 반영하는 주요 실패 모드로 남았습니다. 우리의 코드, 프롬프트, 모델 구성 및 결과는 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0