arXiv논문2026. 05. 05. 12:59

SemEval-2026 과제 9: 다국어 편향 감지를 위한 LLM 미세 조정

요약

SemEval-2026 과제 9는 다국어 환경에서 발생하는 편향을 식별하는 데 초점을 맞추고 있으며, 특히 온라인상의 유해 콘텐츠(혐오 발언 등) 감지가 주요 목표입니다. 이 문제를 해결하기 위해 연구진은 QLoRA 기법을 활용하여 중급 크기의 LLM을 시퀀스 분류 과제로 미세 조정했습니다. 훈련 데이터는 22개 언어의 다국어 데이터를 사용하여 편향 감지 모델의 견고성을 높였습니다.

핵심 포인트

SemEval-2026 과제 9는 다국어, 다문화, 다사건 편향을 식별하는 것을 목표로 합니다.
온라인상의 유해 콘텐츠(혐오 발언 등) 감지는 안전하고 포용적인 온라인 환경 구축에 필수적입니다.
QLoRA를 사용하여 중급 크기의 LLM을 시퀀스 분류 과제에 미세 조정했습니다.
훈련 데이터는 22개 언어의 다국어 데이터를 활용하여 모델의 견고성을 확보했습니다.

SemEval-2026 과제 9 는 다국어 편향 감지에 집중하고 있습니다. 구체적으로, 세 가지 축 (서브과제) 을 통해 다국어, 다문화, 다사건 편향을 식별합니다: 감지, 유형, 그리고 표현 방식. 온라인 편향은 중요한 우려 사항입니다. 왜냐하면 이는 종종 혐오 발언, 공격적 담론 및 사회적 분열로 이어지기 때문입니다. 따라서 그 확대 전에 이를 감지하는 것이 안전하고 포용적인 온라인 공간을 위해 필수적입니다. 우리는 QLoRA 파라미터 효율적 미세 조정 기법을 사용하여 중급 크기의 LLM 을 시퀀스 분류 과제를 위해 미세 조정함으로써 이 SemEval 과제를 해결했습니다. 훈련 데이터는 다국어 (22 개 언어) 훈련 집합을 익명 처리, 소문자화, 대문자화 및 호모글리프 변환된 대응물을 추가하여 감지를 더욱 견고하게 만들었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SemEval-2026 과제 9: 다국어 편향 감지를 위한 LLM 미세 조정

요약

핵심 포인트

댓글