DECOR: 정보 조작 이론 (Information Manipulation Theory)을 통한 LLM 기만 행위 감사

대규모 언어 모델 (Large language models, LLMs)은 핵심 사실을 누락하거나, 초점을 전환하거나, 의미를 모호하게 만드는 등 진실된 정보를 미묘하게 조작함으로써 기만할 수 있으며, 이러한 행동은 탐지하기 어렵게 만듭니다. 기존의 블랙박스 (black-box) 방식은 거친 입도 (coarse-grained)의 판단에 의존하여 해석 가능성이 제한적이며, 어떤 사실이 어떻게 왜곡되었는지 정확히 짚어내지 못합니다. 우리는 LLM 응답 내의 전략적 기만을 미세한 입도 (fine-grained)로 감사하기 위해 정보 조작 이론 (Information Manipulation Theory)에 기반한 멀티 에이전트 (multi-agent) 프레임워크인 DECOR를 소개합니다. DECOR는 입력 컨텍스트를 원자적 정보 단위 (atomic informational units)로 분해하고, 네 가지 조작 차원에 따라 응답과 각 단위를 비교하여 점수를 매기며, 이를 종합하여 전역 기만 지수 (global deception index)로 집계되는 해석 가능한 조작 프로필을 생성합니다. 우리는 실제 도메인을 아우르는 단일 턴 (single-turn) 및 다중 턴 (multi-turn) 기만 탐지 벤치마크 모두에서 DECOR를 종합적으로 평가하였으며, DECOR가 경쟁력 있는 베이스라인 (baselines) 모델들을 능가하며 두 가지 모두에서 최첨단 (state-of-the-art) 성능을 달성함을 보여줍니다. 이 프레임워크는 15개의 프런티어 모델 (frontier models)에 걸쳐 일반화되며, 어블레이션 연구 (ablation studies)를 통해 각 핵심 설계 구성 요소의 기여도를 확인했습니다. 우리의 연구 결과는 정보 조작에 대한 미세한 입도의 이론 기반 감사가 LLM 기만 탐지를 위한 효과적이고 해석 가능한 경로를 제공함을 입증합니다.

Insights

DECOR: 정보 조작 이론 (Information Manipulation Theory)을 통한 LLM 기만 행위 감사

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어