
Anthropic의 CB-2 격차는 생물학적 위험(Biorisk) 임계값에 중간 경고 단계가 필요함을 보여줌
요약
Anthropic의 Mythos 5 모델이 생물무기 임계값(CB-2)을 넘지 않았음에도 보호 조치를 도입한 사례를 통해, AI 생물학적 위험(Biorisk) 평가 체계의 구조적 결함과 중간 경고 단계의 필요성을 분석합니다.
핵심 포인트
- Mythos 5는 CB-2 임계값 미달에도 불구하고 보호 조치가 배치됨
- 임계값 기반 결정과 실제 거버넌스 사이의 구조적 격차 존재
- 측정 격차로 인한 하향 편향을 방지하기 위해 중간 경고 단계 필요
- Anthropic의 RSP v3는 능력 평가의 모호한 구역을 인정함
Anthropic은 CB-2를 넘지 않았음에도 불구하고 Mythos 5를 위한 보호 조치를 배치했습니다. 이 격차는 중간 경고 단계가 해결할 수 있는 생물학적 위험(Biorisk) 임계값의 구조적 편향을 드러냅니다.
Anthropic은 Claude Mythos 5가 CB-2 신규 생물무기 임계값을 넘지 않았다고 결론 내렸음에도 불구하고 보호 조치를 배치했습니다. 임계값에 의해 트리거되는 거버넌스와 실제 결정 사이의 격차는 생물학적 위험(Biorisk) 프레임워크의 구조적 결함을 노출합니다.
주요 사실 (Key facts)
- Anthropic은 Mythos 5가 CB-1 임계값은 충족하지만 CB-2 생물무기 임계값은 충족하지 못한다고 결론지었습니다.
- CB-2 상태와 관계없이 두 임계값 모두에 대해 보호 조치가 배치되었습니다.
- Anthropic은 임계값의 불확실성에도 불구하고 2025년에 Opus 4에 대해 ASL-3 보호 조치를 활성화했습니다.
- 측정 격차는 '넘지 않음(not crossed)' 쪽으로 향하는 구조적인 하향 편향을 생성합니다.
- 중간 경고 단계는 증거의 비대칭성을 주의(caution)를 기울이는 방향으로 반전시킬 것입니다.
Claude Mythos/Fable 5 시스템 카드에서 Anthropic은 해당 모델이 비신규(CB-1) 생물/화학 무기 개발 능력 임계값은 충족하지만, 신규(CB-2) 임계값에는 미치지 못한다고 명시하고 있습니다. 이러한 결론의 차이에도 불구하고, 그들은 두 경우 모두에 대응하여 보호 조치를 도입합니다.
임계값에 의해 트리거되는 결정과 실제 거버넌스 결정 사이에 격차가 발생한 것은 이번이 처음이 아닙니다. 2025년, Anthropic은 능력 임계값 충족 여부가 불확실함에도 불구하고 Claude Opus 4 출시와 함께 AI 안전 수준 3 (ASL-3) 보호 조치를 활성화했습니다. Anthropic의 책임 있는 스케일링 정책 (Responsible Scaling Policy, RSP) v3 논의에서는 능력 평가가 "안전"과 "위험" 사이의 명확한 선을 생성하지 못할 수 있으며, 연구소들이 소위 "모호함의 구역 (zone of ambiguity)"이라 불리는 곳에서 상당한 시간을 보낼 수 있다고 더욱 상세히 설명합니다.
핵심 요약 (Key Takeaways)
- Anthropic은 CB-2 임계값을 넘지 않았음에도 불구하고 Mythos 5를 위한 보호 조치를 배포했습니다.
- 이 격차는 중간 경고 단계(intermediate warning levels)를 통해 해결할 수 있는 생물학적 위험(biorisk) 임계값의 구조적 편향을 드러냅니다.
측정 격차는 하향 편향을 생성함
핵심 문제는 증거의 비대칭적 부담입니다. 모델이 CB-2 임계값을 넘었으며 관련 보호 조치를 트리거해야 한다고 말하려면, 모델이 엔드 투 엔드(end-to-end) 무기 개발에 근접했다는 증거가 필요합니다. 반면, 임계값을 넘지 않았다고 결론 내리려면 프로세스의 누락되었거나 불확실한 단 한 부분만 인용하면 됩니다. 이러한 측정 격차는 생물학적 위험(biorisk) 분야에서 피할 수 없는 문제입니다. 실험실이 자신들의 모델이 새로운 생물학적 무기를 설계, 검증, 제형화 및 배치할 수 있는지 여부를 엔드 투 엔드(end-to-end)로 테스트하는 것은 매우 비윤리적일 것이기 때문입니다.
따라서 임계값이 최종적인 종단 상태(terminal end states)를 기준으로 정의된다면, 대리 증거(proxy evidence)는 항상 암시적이지만 불충분한 것으로 프레임화될 수 있습니다. 이는 실험실이 여전히 보호 조치를 배포하기로 결정할 수 있음에도 불구하고, "임계값을 넘지 않음"이라는 결론으로 향하는 하향 편향(downward bias)을 생성합니다. 이러한 배포는 실험실의 재량에 따라 이루어지며, 사전에 약속된 트리거(trigger)와 연관되지도 않을 것입니다.
중간 경고 단계: 제안
제안된 내용은 프런티어 연구소(frontier labs)가 해당 임계값들을 레드라인(red lines)으로 유지하되, 입증된 엔드-투-엔드 무기화(end-to-end weaponization)보다는 병목 현상(bottleneck) 감소에 초점을 맞춘 중간 경고 단계(intermediate warning levels)를 추가해야 한다는 것입니다. 핵심 설계 속성은 보호 조치를 위한 트리거(trigger)가 연구소가 실제로 수집할 수 있는 데이터, 예를 들어 업리프트(uplift) 실험의 완료 시간(time-to-completion)이나 필요한 인간 수정(human correction)의 정도와 매핑되어야 한다는 점입니다. 중간 트리거는 결정적인 안전성이나 위험성을 증명하는 것을 목표로 해서는 안 되며, 대신 지식(knowledge) 대 실행(execution)으로 분절된, 분해된 엔드-투-엔드 프로세스의 특정 병목 현상에 집중해야 합니다.
트리거를 엔드-투-엔드 프로세스의 하위 단계에 매핑된 측정 가능한 결과와 연결하는 것은 비대칭성(asymmetry)을 역전시키는 데에도 도움이 될 것입니다. 최종 임계값(terminal thresholds)의 경우, 누락된 증거는 "임계값을 넘지 않았다"는 논거로 작용합니다. 반면 중간 경고 단계가 있다면, 증거는 단계 격상(escalation)의 근거가 되며, 격상하지 않아야 하는 이유를 정당화해야 하는 책임(burden)이 연구소로 넘어갑니다. 연구소들은 격상을 유발할 경계치(margins)를 사전에 약속함으로써, 결과를 확인한 후 동기화된 추론(motivated reasoning)이 개입할 여지를 제거하게 될 것입니다.
주시해야 할 사항
Anthropic의 다음 RSP 업데이트나 시스템 카드(system card)를 주시하십시오. 만약 그들이 중간 경고 단계를 도입한다면, 이는 생물학적 위험(biorisk) 거버넌스의 구조적 변화를 의미할 것입니다. 또한 OpenAI나 Google DeepMind와 같은 다른 프런티어 연구소들이 그들의 안전 정책에 유사한 계층적 경고 프레임워크(tiered warning frameworks)를 채택하는지도 모니터링해야 합니다.
출처: lesswrong.com
원문은 gentic.news에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기