Measuring Evaluation-Context Divergence in Open-Weight LLMs: A Paired-Prompt

안전 벤치마크는 언어 모델이 배포 후 어떻게 행동할지에 대한 증거로 routinely(평범하게) 취급되지만, 프롬프트가 평가처럼 보이는지에 따라 행동이 달라진다면 이 추론은 취약합니다. 우리는 고정된 작업을 평가, 실제 배포 상호작용, 또는 중립적 요청으로 프레임링함으로써 유도되는 내부 항목 내 행동 변화 관찰을 '평가 컨텍스트 분기 (evaluation-context divergence)'로 정의하고, 이를 오픈 웨이트 LLMs(개방 가중치 대형 언어 모델) 에서 측정하는 paired-prompt 프로토콜 (쌍 프롬프트 프로토콜) 을 제시하며, 패러프레이즈 변이, 벤치마크 친숙도, 판사 프레임링 민감도를 통제합니다. 4 개 오픈 웨이트 가족의 5 개의 instruction-tuned checkpoints(명령 학습 체크포인트) 및 매칭된 OLMo-3 base/instruct ablation($20$ paired items, $840$ generations per checkpoint) 를 통해 우리는 놀라운 heterogeneity(이질성) 를 발견합니다. OLMo-3-Instruct 만은 eval-cautious(평가 주의) 입니다 -- 평가 프레임링은 중립 대비 거부율을 $11.8$pp($p=0.007$) 높이고, 배포 대비 해로운 준수율을 $3.6$pp($p=0.024$, $0/20$ items inverted) 낮춥니다 -- 반면 Mistral-Small-3.2, Phi-3.5-mini, 그리고 Llama-3.1-8B 는 deployment-cautious(배포 주의) 입니다, eval-vs-deployment 거부 효과는 $-9$ 에서 $-20$pp까지입니다. 매칭된 OLMo-3 base 또한 deployment-cautious 패턴을 보이며 alignment(정렬) 을 역전 단계를 식별합니다. Llama-3.1 내에서는 $70$B 모델이 방향성을 유지하며 완화된 크기를 보존하여, 단순한 ``small-model effect that reverses at scale''(규모에서 반전되는 작은 모델 효과) 를 배제합니다. 한 가지 주의사항: cross-family heterogeneity(가족 간 이질성) 는 judge-dependent(판사 의존적) 입니다. 다른 가족 안전 분류기 (Llama-Guard-3-8B) 로 재 판정하면 within-OLMo eval-cautious 방향은 유지되지만 cross-family 대비는 평평해지며, 두 판사는 서로 다른 construct(개념) 을 operationalize(운영화) 한다는 것을 나타냅니다.

Insights

Measuring Evaluation-Context Divergence in Open-Weight LLMs: A Paired-Prompt

요약

핵심 포인트

댓글

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?

ANTHROPIC 🔥: Claude Voice Mode가 Opus 4.8 및 Sonnet 5 모델 지원과 함께 업그레이드되었습니다!

속보: Alphabet($GOOGL)의 Anthropic 지분이 약 $124,000,000,000로 급증했습니다.

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?

ANTHROPIC 🔥: Claude Voice Mode가 Opus 4.8 및 Sonnet 5 모델 지원과 함께 업그레이드되었습니다!

속보: Alphabet($GOOGL)의 Anthropic 지분이 약 $124,000,000,000로 급증했습니다.