LLM 의 Out-of-Distribution 입력 처리 방식: 두 경로 프레임워크

최근 백박스 (white-box) OOD detection 방법들 -- CED, RAUQ, WildGuard 신뢰도 점수 포함 -- 은 유효해 보이지만, 우리는 시퀀스 길이 (|r| >= 0.61) 에 의해 구조적 혼란을 겪고 있으며, 길이 매칭 평가에서는 거의 우연의 결과로 붕괴함을 보여줍니다. 또한 자연스러운 기준선인 원시 attention 엔트로피 (헤드와 레이어에 대한 평균 H(alpha)) 도 동일한 혼란을 보입니다. 이 혼란은 attention 의 입력 길이에 대한 Theta(log T) 의존성에 기인합니다.

혼란을 제거한 후 진정한 OOD 신호를 식별하기 위해, 우리는 임베딩이 텍스트가 무엇을 의미하는지를 포착하고 (주제 전환에 효과적), 처리 경로 -- 레이어에 걸친 숨겨진 상태의 진화 -- 가 입력을 어떻게 처리하는지 포착한다는 두 경로 프레임워크를 제안합니다. 각 경로의 상대적 힘은 단어 투명성 스펙트럼 따라 달라집니다: 임베딩 방법은 단어 구별 OOD 에서 우세하며, 경로 기능은 정상 텍스트와 동일한 단어를 공유하는 은밀한 의도 입력을 탐지합니다 (0.721 평균 AUROC; Jailbreak: 0.850).

이 프레임워크를 지지하는 세 가지 증거가 있습니다: (1) k-NN 과 경로 점수 사이의 교차, 각 경로가 다른 OOD 유형에서 승리하며; (2) 레이어별 분석으로 레이어-0 k-NN 신호는 거의 전적으로 길이 산물로 (Jailbreak: 0.759 원시 -> 0.389 매칭) -- 처리는 거의 우연의 결과인 임베딩에서 진정한 OOD 신호를 생성합니다; 그리고 (3) 회로 귀속으로 적대적 작업이 의미론적 작업보다 attention 회로를 더 많이 활용함 (p = 0.022; Jailbreak patching p < 0.001), 부분적 교차 모델 복제됨.

Insights

LLM 의 Out-of-Distribution 입력 처리 방식: 두 경로 프레임워크

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화