본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 20:14

LLM 의 Out-of-Distribution 입력 처리 방식: 두 경로 프레임워크

요약

본 논문은 기존의 백박스 OOD(Out-of-Distribution) 탐지 방법들이 시퀀스 길이 의존성으로 인해 구조적 혼란을 겪는 문제를 지적하며, 이를 해결하기 위해 '두 경로 프레임워크'를 제안합니다. 이 프레임워크는 입력 임베딩이 텍스트의 의미를 포착하는 능력과 레이어에 걸친 숨겨진 상태의 진화(처리 경로)라는 두 가지 독립적인 관점에서 OOD 신호를 식별합니다. 실험 결과, 각 경로는 서로 다른 유형의 OOD 공격을 탐지하는 데 강점을 보이며, 특히 임베딩 기반 방법은 단어 구별 OOD에, 처리 경로 기능은 은밀한 의도(Jailbreak) 입력 탐지에 효과적임을 입증했습니다.

핵심 포인트

  • 기존 백박스 OOD 탐지 기법들은 시퀀스 길이 의존성으로 인해 신뢰도가 떨어지는 문제가 있음.
  • 제안된 '두 경로 프레임워크'는 임베딩(의미 포착)과 처리 경로(숨겨진 상태 진화)라는 두 가지 독립적인 관점에서 OOD를 탐지함.
  • 각 경로는 서로 다른 유형의 OOD 공격에 특화되어 있어, 상호 보완적으로 사용될 수 있음 (예: 임베딩은 단어 구별, 경로 기능은 은밀한 의도 탐지).
  • 실험 결과는 두 경로가 독립적인 신호를 제공하며, 특히 처리 경로는 적대적 작업이 의미론적 작업을 능가하는 패턴을 보여줌으로써 그 유효성을 입증함.

최근 백박스 (white-box) OOD detection 방법들 -- CED, RAUQ, WildGuard 신뢰도 점수 포함 -- 은 유효해 보이지만, 우리는 시퀀스 길이 (|r| >= 0.61) 에 의해 구조적 혼란을 겪고 있으며, 길이 매칭 평가에서는 거의 우연의 결과로 붕괴함을 보여줍니다. 또한 자연스러운 기준선인 원시 attention 엔트로피 (헤드와 레이어에 대한 평균 H(alpha)) 도 동일한 혼란을 보입니다. 이 혼란은 attention 의 입력 길이에 대한 Theta(log T) 의존성에 기인합니다.

혼란을 제거한 후 진정한 OOD 신호를 식별하기 위해, 우리는 임베딩이 텍스트가 무엇을 의미하는지를 포착하고 (주제 전환에 효과적), 처리 경로 -- 레이어에 걸친 숨겨진 상태의 진화 -- 가 입력을 어떻게 처리하는지 포착한다는 두 경로 프레임워크를 제안합니다. 각 경로의 상대적 힘은 단어 투명성 스펙트럼 따라 달라집니다: 임베딩 방법은 단어 구별 OOD 에서 우세하며, 경로 기능은 정상 텍스트와 동일한 단어를 공유하는 은밀한 의도 입력을 탐지합니다 (0.721 평균 AUROC; Jailbreak: 0.850).

이 프레임워크를 지지하는 세 가지 증거가 있습니다: (1) k-NN 과 경로 점수 사이의 교차, 각 경로가 다른 OOD 유형에서 승리하며; (2) 레이어별 분석으로 레이어-0 k-NN 신호는 거의 전적으로 길이 산물로 (Jailbreak: 0.759 원시 -> 0.389 매칭) -- 처리는 거의 우연의 결과인 임베딩에서 진정한 OOD 신호를 생성합니다; 그리고 (3) 회로 귀속으로 적대적 작업이 의미론적 작업보다 attention 회로를 더 많이 활용함 (p = 0.022; Jailbreak patching p < 0.001), 부분적 교차 모델 복제됨.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0