본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 15. 06:06

Fable 5의 최전선 LLM 개발 안전장치 공개

요약

Fable 5의 최전선 LLM 개발 과정에서 안전장치(safeguards)를 가시적으로 구현하는 변경 사항이 적용됩니다. 플래그 지정된 요청은 Opus 4.8로 폴백되며, API에서는 거부 사유가 반환될 예정입니다. 이는 사용자들에게 투명성을 제공하기 위함이지만, 분류기 개선 과정에서 오탐 증가 및 불편함을 감수해야 합니다.

핵심 포인트

  • 플래그 지정 요청은 Opus 4.8로 폴백되어 안전장치를 시각화합니다.
  • API 사용자는 플래그 지정 요청에 대해 거부 사유를 확인할 수 있습니다.
  • 안전장치 가시성 확보는 우회 방지에 도움이 되지만, 오탐 증가가 예상됩니다.
  • 사용자 피드백을 통해 분류기 개선 및 안전장치 조정이 진행될 예정입니다.

이번 주부터 Fable 5의 최전선(frontier) LLM 개발을 위한 안전장치를 가시적으로 구현하는 변경 사항을 적용합니다.

이번 주를 시작으로, 플래그가 지정된 요청은 사이버 및 생물학적 영역에 대한 우리의 안전장치와 동일한 Opus 4.8로 눈에 띄게 폴백(fallback)될 것입니다. 이 현상은 발생할 때마다 확인하실 수 있습니다. API의 경우, 모든 플래그가 지정된 요청은 거부 사유를 반환할 것이며 (향후 며칠 내 서버 측 폴백으로 변경 예정), 이를 통해 확인할 수 있습니다.

저희는 Fable 5를 사용자들에게 빠르고 안전하게 배포하고 싶었습니다. 가시적인 안전장치는 테스트(probed)될 수 있으므로 견고해야 하며, 이는 올바르게 구현하는 데 시간이 걸립니다. 반면, 비가시적인 안전장치는 더 좁게 표적화할 수 있어 매우 적은 오탐(false positives)으로 빠르게 출시할 수 있습니다. 저희는 이 이유로 비가시적인 안전장치를 선택했는데, 이것이 잘못된 트레이드오프였습니다. 사용자들은 저희가 마련한 안전장치와 그 이유에 대한 가시성을 확보해야 합니다. 균형을 맞추지 못한 점 사과드립니다.

안전장치를 가시적으로 만드는 것은 우회하기 더 쉽게 만듭니다. 따라서 탈옥(jailbreaks)에 대해 견고하게 유지하려면, 분류기(classifiers)를 개선하는 동안 오탐이 더 많아지는 것을 감수해야 합니다. 또한, 무해한 요청에도 트리거되는 생물학 및 사이버 분류기를 조정하고 있습니다. 저희는 이것이 답답할 수 있다는 것을 알고 있으며, 이 기간을 가능한 한 짧게 유지하기 위해 최선을 다하겠습니다.

요청이 실수로 플래그 지정되었다고 생각되면: Claude Code에서 /feedback을 실행하거나, https://t.co/LtktniD5HY 또는 Cowork에서 폴백에 대해 엄지손가락 아래를 클릭하거나, API 요청의 안전장치 이의 제기 양식(safeguard appeal form)을 작성해 주십시오. 사용자님의 보고는 저희가 분류기를 조정하는 데 도움이 되며, 피드백에 감사드립니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0