근거(Rationales)는 필수적이며 충분한가? 설명 가능한 오정보 탐지를 위한 LLM 튜닝

소셜 미디어 플랫폼에서 오정보(Misinformation)의 급격한 확산은 엄청난 도전 과제가 되었습니다. 이를 완화하기 위해 오정보 탐지(Misinformation Detection, MD)가 중요한 연구 주제로 부상했습니다. 소형 모델에 기반한 전통적인 MD 접근 방식은 일반적으로 블랙박스(black-box) 과정을 통해 이진 분류(binary classification)를 수행합니다. 최근 대규모 언어 모델(Large Language Models, LLMs)의 부상은 모델이 자신의 결정에 대한 근거(rationales)를 생성하여 투명성을 높이는 설명 가능한 MD를 가능하게 했습니다. 기존의 설명 가능한 MD 방법들은 주로 기성 LLM으로부터 근거를 이끌어내기 위해 정교한 프롬프트(prompts)를 제작하는 데 집중합니다. 본 연구에서는 설명 가능한 MD를 위해 전용 LLM을 미세 조정(fine-tune)하는 파이프라인을 제안합니다. 우리의 파이프라인은 대규모의 팩트 체크(fact-checked)된 기사를 수집하는 것으로 시작하며, 그 후 여러 강력한 LLM을 사용하여 진위 예측(veracity predictions)과 근거를 생성합니다. 고품질의 학습 데이터를 보장하기 위해, 우리는 미세 조정을 위해 올바른 사례만을 선택하는 필터링 전략을 활용합니다. 이 파이프라인은 직관적이고 널리 퍼져 있지만, 우리의 실험 결과에 따르면 레이블(label)의 정확성에만 기반한 단순한 필터링은 실제로는 불충분하며 두 가지 결정적인 한계를 가집니다: (1) 조립질(Coarse-grained) 레이블로 인한 불충분한 근거: 이진 레이블에만 기반하여 필터링된 근거는 그들의 결정을 적절히 뒷받침하기에 불충분합니다; (2) 과잉 검증(Over-verification) 행동으로 인한 불필요한 근거: 더 강력한 LLM은 과잉 검증 행동을 보이는 경향이 있어, 지나치게 장황하고 불필요한 근거를 생성합니다. 이러한 문제를 해결하기 위해, 우리는 설명 가능한 MD를 위한 필수적이고 충분한 근거를 찾아내는(Locate Necessary and Sufficient Rationales) 새로운 데이터 합성 파이프라인인 LONSREX를 도입합니다. 구체적으로, 우리는 각 검증 단계가 최종 예측에 기여하는 정도를 정량화하여 그 필요성(necessity)과 충분성(sufficiency)을 평가하는 지표를 제안합니다. 실험 결과는 LONSREX의 효과를 입증합니다.

Insights

근거(Rationales)는 필수적이며 충분한가? 설명 가능한 오정보 탐지를 위한 LLM 튜닝

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어