진실인가 궤변인가? LoFa: 논리적 오류에 대한 LLM 강건성 벤치마크

대규모 언어 모델 (LLMs)은 강력한 의미론적 능력을 보여주지만, 논리적 오류 (logical fallacies)와 같은 조작적인 언어 패턴에 대한 회복력은 아직 충분히 연구되지 않았습니다. 기존 연구들은 주로 LLM이 오류를 식별하거나 분류할 수 있는지 여부를 조사해 왔으며, 오류가 포함된 설득에 대한 강건성 (robustness)은 충분히 연구되지 않은 상태로 남아 있습니다. 이러한 공백을 메우기 위해, 우리는 오류에 대한 LLM의 강건성을 평가하기 위한 종합적인 벤치마크인 LoFa (Logical Fallacy)를 소개합니다. LoFa는 사실에 기반한 질문과 오류가 포함된 논증을 쌍으로 묶는 멀티 에이전트 파이프라인 (multi-agent pipeline)을 통해 구축되었으며, 지속적인 적대적 설득 (adversarial persuasion) 하에서 모델의 회복력을 평가하기 위한 다회차 토론 프레임워크 (multi-round debate framework)가 동반됩니다. 모델의 내재적인 지식 한계와 오류에 대한 강건성을 분리하기 위해, 우리는 오류 공격에 대한 저항성을 정량화하는 지표인 LFR@k (Logical Fallacy Resistance at k)를 추가로 제안합니다. 실험 결과, LLM은 다양한 오류 유형에 따라 서로 다른 수준의 강건성을 보였으며, 모델 간에 뚜렷하게 구분되는 취약성 프로필 (vulnerability profiles)이 드러났습니다.

Insights

진실인가 궤변인가? LoFa: 논리적 오류에 대한 LLM 강건성 벤치마크

요약

핵심 포인트

댓글

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

경합하는 보상을 통한 LLM의 과잉 거부(Over-Refusal) 문제 해결

전이 확률을 모르는 MDP에서 정책 최적화(Policy Optimization)를 통한 데이터 의존적 후회 한계(Data-Dependent

구어 장애 음성(Dysarthric Speech)에 대한 파운데이션 ASR 모델의 적응: 사례 연구

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

경합하는 보상을 통한 LLM의 과잉 거부(Over-Refusal) 문제 해결

전이 확률을 모르는 MDP에서 정책 최적화(Policy Optimization)를 통한 데이터 의존적 후회 한계(Data-Dependent

구어 장애 음성(Dysarthric Speech)에 대한 파운데이션 ASR 모델의 적응: 사례 연구