arXiv논문2026. 04. 27. 20:43

Behavioral Canaries: RL Fine-Tuning 에서의 사적 검색 컨텍스트 사용 감사

요약

본 기사는 LLM 기반 에이전트 워크플로우에서 법적으로 보호되는 추가 학습 데이터가 서비스 약관을 위반하여 포함되었는지 감사하는 새로운 방법론인 'Behavioral Canaries'를 소개합니다. 기존의 암기 및 멤버십 추론 기반 감사는 강화학습(RL)으로 훈련된 모델에는 효과적이지 않다는 한계가 있었습니다. Behavioral Canaries는 문서 트리거와 독특한 스타일적 응답에 보상을 주는 피드백을 사용하여 잠재적인 조건부 선호도 데이터를 장비하고, 이를 통해 RLFT 파이프라인에서 무단 데이터 포함 여부를 감지할 수 있습니다.

핵심 포인트

Behavioral Canaries는 RL Fine-Tuning(RLFT) 과정에서 서비스 약관 위반 가능성을 감사하는 새로운 프레임워크이다.
기존의 암기 기반 감사 방법은 행동 변화에 초점을 맞추는 RL 모델에는 효과적이지 않다.
이 프레임워크는 문서 트리거와 스타일적 응답을 결합하여 선호도 데이터를 장비(instrument)한다.
실험 결과, 낮은 카니리 주입률에서도 높은 감지율과 허용 가능한 위양성률을 달성할 수 있음을 입증했다.

에이전트 워크플로우에서 LLM 은 법적 보호를 받는 추가 학습으로부터 분리된 검색 컨텍스트를 자주 처리합니다. 그러나 감사 기관은 현재 이러한 데이터를 포스트 트레이닝, 특히 강화학습 (RL) 을 통해 제공자가 서비스 약관을 위반하여 포함했는지 확인하는 신뢰할 수 있는 방법을 갖추지 못했습니다. 표준 감사는 문자 그대로의 암기 (verbatim memorization) 와 멤버십 추론 (membership inference) 에 의존하지만, 이 방법들은 RL 훈련된 모델에는 효과적이지 않습니다. RL 은 주로 모델의 특정 사실 보유가 아닌 행동 스타일에 영향을 미치기 때문입니다. 이 격차를 해소하기 위해 우리는 RLFT 파이프라인을 위한 새로운 감사 메커니즘인 Behavioral Canaries 를 소개합니다. 이 프레임워크는 문서 트리거와 독특한 스타일적 응답에 보상을 주는 피드백을 짝지워 선호도 데이터를 장비 (instrument) 합니다. 이러한 데이터가 훈련에 사용되면 잠재적인 트리거 조건부 선호도 (latent trigger-conditioned preference) 가 유도됩니다. 경험적 결과는 이러한 행동 신호가 무단 문서 조건부 훈련의 감지를 가능하게 하며, 1% 의 카니리 주입률에서 10% 의 위양성률 (AUROC = 0.756) 에서 67% 의 감지율을 달성함을 보여줍니다. 더 넓게 보면, 우리의 결과는 행동 카니리를 RLFT 파이프라인을 위한 새로운 감사 메커니즘으로 확립하며, 이러한 영향이 암기보다는 분포적 행동 변화로 나타날 때도 훈련 시간의 영향을 테스트할 수 있도록 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Behavioral Canaries: RL Fine-Tuning 에서의 사적 검색 컨텍스트 사용 감사

요약

핵심 포인트

댓글