근거(Rationales)는 필수적이며 충분한가? 설명 가능한 오정보 탐지를 위한 LLM 튜닝
요약
본 연구는 소셜 미디어의 오정보 탐지(MD)를 위해 설명 가능한 근거를 생성하는 전용 LLM 미세 조정 파이프라인을 제안합니다. 기존의 단순 레이블 기반 필터링 방식이 가진 불충분한 근거 생성과 과잉 검증 문제를 해결하기 위해, 근거의 필요성과 충분성을 정량화하여 평가하는 새로운 데이터 합성 파이프라인인 LONSREX를 도입했습니다.
핵심 포인트
- 기존의 이진 레이블 기반 필터링은 근거가 불충분하거나 불필요하게 장황한 과잉 검증 문제를 야기함
- 설명 가능한 오정보 탐지를 위해 전용 LLM을 미세 조정하는 새로운 파이프라인 제안
- 근거의 필요성(Necessity)과 충분성(Sufficiency)을 정량적으로 평가하는 지표 개발
- LONSREX 파이프라인을 통해 고품질의 필수적이고 충분한 근거를 포함한 학습 데이터 합성 가능
소셜 미디어 플랫폼에서 오정보(Misinformation)의 급격한 확산은 엄청난 도전 과제가 되었습니다. 이를 완화하기 위해 오정보 탐지(Misinformation Detection, MD)가 중요한 연구 주제로 부상했습니다. 소형 모델에 기반한 전통적인 MD 접근 방식은 일반적으로 블랙박스(black-box) 과정을 통해 이진 분류(binary classification)를 수행합니다. 최근 대규모 언어 모델(Large Language Models, LLMs)의 부상은 모델이 자신의 결정에 대한 근거(rationales)를 생성하여 투명성을 높이는 설명 가능한 MD를 가능하게 했습니다. 기존의 설명 가능한 MD 방법들은 주로 기성 LLM으로부터 근거를 이끌어내기 위해 정교한 프롬프트(prompts)를 제작하는 데 집중합니다. 본 연구에서는 설명 가능한 MD를 위해 전용 LLM을 미세 조정(fine-tune)하는 파이프라인을 제안합니다. 우리의 파이프라인은 대규모의 팩트 체크(fact-checked)된 기사를 수집하는 것으로 시작하며, 그 후 여러 강력한 LLM을 사용하여 진위 예측(veracity predictions)과 근거를 생성합니다. 고품질의 학습 데이터를 보장하기 위해, 우리는 미세 조정을 위해 올바른 사례만을 선택하는 필터링 전략을 활용합니다. 이 파이프라인은 직관적이고 널리 퍼져 있지만, 우리의 실험 결과에 따르면 레이블(label)의 정확성에만 기반한 단순한 필터링은 실제로는 불충분하며 두 가지 결정적인 한계를 가집니다: (1) 조립질(Coarse-grained) 레이블로 인한 불충분한 근거: 이진 레이블에만 기반하여 필터링된 근거는 그들의 결정을 적절히 뒷받침하기에 불충분합니다; (2) 과잉 검증(Over-verification) 행동으로 인한 불필요한 근거: 더 강력한 LLM은 과잉 검증 행동을 보이는 경향이 있어, 지나치게 장황하고 불필요한 근거를 생성합니다. 이러한 문제를 해결하기 위해, 우리는 설명 가능한 MD를 위한 필수적이고 충분한 근거를 찾아내는(Locate Necessary and Sufficient Rationales) 새로운 데이터 합성 파이프라인인 LONSREX를 도입합니다. 구체적으로, 우리는 각 검증 단계가 최종 예측에 기여하는 정도를 정량화하여 그 필요성(necessity)과 충분성(sufficiency)을 평가하는 지표를 제안합니다. 실험 결과는 LONSREX의 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기