진실인가 궤변인가? LoFa: 논리적 오류에 대한 LLM 강건성 벤치마크
요약
LLM이 논리적 오류가 포함된 설득에 얼마나 강건한지 평가하기 위한 새로운 벤치마크 LoFa를 제안합니다. 멀티 에이전트 파이프라인과 다회차 토론 프레임워크를 통해 모델의 회복력을 측정하며, 새로운 지표인 LFR@k를 통해 취약성을 정량화합니다.
핵심 포인트
- 논리적 오류에 대한 LLM의 강건성 평가를 위한 LoFa 벤치마크 도입
- 멀티 에이전트 파이프라인 기반의 적대적 설득 프레임워크 구축
- 오류 공격 저항성을 측정하는 새로운 지표 LFR@k 제안
- 모델별로 상이한 논리적 오류 취약성 프로필 확인
대규모 언어 모델 (LLMs)은 강력한 의미론적 능력을 보여주지만, 논리적 오류 (logical fallacies)와 같은 조작적인 언어 패턴에 대한 회복력은 아직 충분히 연구되지 않았습니다. 기존 연구들은 주로 LLM이 오류를 식별하거나 분류할 수 있는지 여부를 조사해 왔으며, 오류가 포함된 설득에 대한 강건성 (robustness)은 충분히 연구되지 않은 상태로 남아 있습니다. 이러한 공백을 메우기 위해, 우리는 오류에 대한 LLM의 강건성을 평가하기 위한 종합적인 벤치마크인 LoFa (Logical Fallacy)를 소개합니다. LoFa는 사실에 기반한 질문과 오류가 포함된 논증을 쌍으로 묶는 멀티 에이전트 파이프라인 (multi-agent pipeline)을 통해 구축되었으며, 지속적인 적대적 설득 (adversarial persuasion) 하에서 모델의 회복력을 평가하기 위한 다회차 토론 프레임워크 (multi-round debate framework)가 동반됩니다. 모델의 내재적인 지식 한계와 오류에 대한 강건성을 분리하기 위해, 우리는 오류 공격에 대한 저항성을 정량화하는 지표인 LFR@k (Logical Fallacy Resistance at k)를 추가로 제안합니다. 실험 결과, LLM은 다양한 오류 유형에 따라 서로 다른 수준의 강건성을 보였으며, 모델 간에 뚜렷하게 구분되는 취약성 프로필 (vulnerability profiles)이 드러났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기