arXiv논문2026. 04. 24. 04:46

LLM 증강 데이터로 정치적 질문 회피 탐지 성능 개선 방안

요약

본 논문은 SemEval-2026 Task 6 (CLARITY)에 제출된 'Duluth' 접근 방식을 소개합니다. 이 태스크는 미국 대통령 인터뷰의 질의응답 쌍을 분석하여 응답의 명확성(Clarity)과 회피 정도(Evasion)를 분류하는 것을 목표로 합니다. 저희 시스템은 DeBERTa-V3-base 기반에 Focal Loss, Layer-wise Learning Rate Decay 등의 기법을 적용하고, 특히 소수 클래스 불균형 문제를 해결하기 위해 Gemini 3와 Claude Sonnet 4.5 같은 대규모 언어 모델(LL

핵심 포인트

DeBERTa-V3-base를 기반으로 Focal Loss 및 Layer-wise Learning Rate Decay 기법을 적용하여 시스템 성능을 최적화했습니다.
Gemini 3와 Claude Sonnet 4.5를 활용한 LLM 증강 데이터(LLM-Augmented Data)가 소수 클래스 재현율(Recall) 향상에 효과적이었습니다.
Task 1 평가 세트에서 Macro F1 점수 0.76을 달성하며, 평균 점수(0.70) 대비 우수한 성능을 입증했습니다.
오분류 분석 결과, 'Ambivalent'와 'Clear Reply' 간의 혼동이 주요 오류 원인으로 밝혀졌으며, 이는 인간 주석가들의 의견 불일치 패턴과 유사합니다.

본 논문은 SemEval-2026 Task 6: CLARITY (Unmasking Political Question Evasions)에 대한 'Duluth' 접근 방식을 제시합니다. 이 태스크는 미국 대통령 인터뷰에서 추출된 질의응답(Q&A) 쌍을 분석하여, 응답의 명확성 수준과 정치적 질문 회피 정도를 다단계 분류하는 것을 목표로 합니다.

저희 시스템은 DeBERTa-V3-base 모델을 기반으로 구축되었으며, 여기에 Focal Loss와 Layer-wise Learning Rate Decay 같은 고급 딥러닝 기법들을 결합하여 성능을 최적화했습니다. 또한, Boolean Discourse Features를 추가적으로 활용하여 문맥적 정보를 강화했습니다.

가장 중요한 개선점은 데이터 불균형(Class Imbalance) 문제입니다. 정치 담론 분석에서 특정 클래스(예: 명확한 응답)에 비해 소수 클래스는 데이터가 부족하기 쉽습니다. 이를 해결하기 위해, 저희는 Gemini 3와 Claude Sonnet 4.5 같은 대규모 언어 모델(LLM)을 활용하여 합성 예제(Synthetic Examples)를 생성함으로써 소수 클래스를 증강(Augmentation)했습니다.

이러한 접근 방식을 통해 구현된 시스템은 Task 1 평가 세트에서 Macro F1 점수 0.76을 달성하며, 참가팀 평균 점수 0.70 대비 높은 성능을 보였습니다. (참고로 최고 기록은 TeleAI가 0.89를 기록했습니다.)

오류 분석(Error Analysis) 결과, 가장 빈번한 오분류 패턴은 'Ambivalent' 응답과 'Clear Reply' 응답 간의 혼동이었습니다. 흥미롭게도 이 오류 패턴은 실제 인간 주석가들 사이에서 나타나는 의견 불일치 양상을 반영하고 있습니다.

결론적으로, 본 연구는 LLM 기반 데이터 증강 기법이 복잡하고 미묘한 정치 담론 분석 태스크(Nuanced Political Discourse Tasks)의 소수 클래스 재현율(Recall)을 의미 있게 개선할 수 있음을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 증강 데이터로 정치적 질문 회피 탐지 성능 개선 방안

요약

핵심 포인트

댓글