arXiv논문2026. 05. 05. 17:00

오프라인 RLHF의 효율적인 선호도 오염 공격

요약

본 논문은 인간 피드백 기반 오프라인 강화학습(RLHF) 파이프라인, 특히 DPO와 같은 방식이 선호도 데이터셋의 '오염'에 취약하다는 점을 지적하며 시작한다. 연구진은 하나의 레이블 플립 공격이 DPO 그래디언트를 매개변수 독립적으로 이동시킨다는 핵심 속성을 발견하고, 이를 구조화된 이산형 희소 근사 문제로 변환했다. 이를 해결하기 위해 'Binary-Aware Lattice Attack (BAL-A)'와 'Binary Matching Pursuit Attack (BMP-A)'라는 두 가지 새로운 공격 방법을 제안하여 오프라인 RLHF 모델의 취약점을 체계적으로 분석하고 복원 가능성을 입증한다.

핵심 포인트

오프라인 RLHF(DPO 등)는 사전 수집된 선호도 데이터셋에 매우 취약하다.
레이블 플립 공격은 DPO 그래디언트를 매개변수 독립적인 방식으로 이동시킨다는 핵심 속성이 있다.
이 문제를 해결하기 위해 구조화된 이산형 희소 근사 문제로 변환했다.
BAL-A는 격자 이론(Lattice Theory)과 축소법을 활용하여 플립 선택 문제를 해결한다.
BMP-A는 매칭 추적(Matching Pursuit) 기법을 사용하여 $K$-플립 예산 하의 복원 가능성을 보장한다.

인간 피드백 기반 오프라인 강화학습 (Offline Reinforcement Learning from Human Feedback, RLHF) 파이프라인, 예를 들어 직접 선호도 최적화 (Direct Preference Optimization, DPO) 는 사전 수집된 선호도 데이터셋을 학습하여 훈련합니다. 이는 선호도 오염 공격에 취약하게 만듭니다. 우리는 로그-선형 DPO(Log-linear DPO) 에 대한 레이블 플립 공격 (Label flip attack) 을 연구했습니다.

우리는 먼저 하나의 선호도 레이블을 반전 (flipping) 시키면 DPO 그래디언트 (gradient) 가 매개변수 독립적 (parameter-independent) 으로 이동한다는 것을 설명합니다. 이 핵심 속성을 사용하여, 우리는 표적 오염 문제를 구조화된 이산형 희소 근사 문제 (structured binary sparse approximation problem) 로 변환할 수 있습니다.

이 문제를 해결하기 위해 우리는 두 가지 공격 방법을 개발했습니다: Binary-Aware Lattice Attack (BAL-A) 과 Binary Matching Pursuit Attack (BMP-A).

Binary-Aware Lattice Attack (BAL-A)
- BAL-A 는 이산형 플립 선택 문제를 이산형 인식 격자 (binary-aware lattice) 에 내재화하고, Lenstra-Lenstra-Lovász 축소법과 Babai 의 최단 평면 알고리즘을 적용합니다.
- 우리는 이진 계수를 강제하고 최소 플립 목적을 복원하기 위한 충분 조건을 제공합니다.
Binary Matching Pursuit Attack (BMP-A)
- BMP-A 는 비정규화 그래디언트 사전 (non-normalized gradient dictionary) 에 맞춰 이산형 매칭 추적을 (binary matching pursuit) 적용합니다.
- $K$-플립 예산 ($K$-flip budgets) 에 대해 일관성 기반 복원 보장과 견고성 (impossibility) 인증을 제공합니다.

합성 사전 (synthetic dictionaries) 과 Stanford Human Preferences 데이터셋 (Stanford Human Preferences dataset) 에서 실험은 이론을 검증하고 사전 기하학이 공격 성공을 어떻게 지배하는지 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오프라인 RLHF의 효율적인 선호도 오염 공격

요약

핵심 포인트

댓글