Anthropic의 Fable에 적용된 안전장치(guardrails)에 대해 사이버 보안 연구원들이 불만을 제기하다

Anthropic은 화요일, 강력하고 많은 기대를 모았던 사이버 보안 모델 Mythos의 공개적이고 제한적인 버전으로 최신 모델 Fable을 출시했습니다.

하지만 모두가 이 제한 사항에 만족하는 것은 아니며, 다수의 사이버 보안 연구원과 전문가들이 온라인상에서 불만을 표출했습니다.

IBM X-Force에서 근무하는 유명한 보안 연구원 Valentina “Chompie” Palmiotti는 “[Fable]은 간접적으로라도 사이버와 관련된 모든 요청을 거부합니다. 블로그 게시물을 읽는 것 같은 무해한 작업조차도 마찬가지입니다.”라고 말했습니다.

프롬프트가 안전장치(guardrails)를 작동시키면, Fable은 채팅을 일시 중지하고 “안전 조치가 이 메시지를 사이버 보안 또는 생물학 주제로 플래그 지정했습니다”라고 알립니다.

이러한 안전장치는 Fable이 악성 코드를 개발하거나 소프트웨어를 손상시키는 데 사용될 위험을 제한하기 위해 마련되었으며, 이는 Anthropic 내부에서 오랫동안 제기되어 온 우려 사항입니다. 생물학에 대한 제한은 생물학 무기를 개발하는 것과 관련된 유사한 우려에서 비롯되었습니다.

AI 거대 기업은 지난 4월 Mythos를 출시했을 때, 모델을 안전한 핵심 소프트웨어 및 인프라에 배포하려는 노력의 일환으로 Project Glasswing이라 부르며 소수의 회사와 조직에게만 제한적으로 사용하도록 했습니다. 지난주에는 Anthropic이 Mythos에 대한 접근 권한을 15개국 수백 개의 조직으로 확대했습니다.

하지만 좋은 의도에도 불구하고, 많은 사이버 보안 전문가들은 여전히 이러한 임의적인(haphazard) 제한 방식에 실망하고 있습니다. 사이버 보안 베테랑인 Matt Suiche는 TechCrunch에 “안전한 코드를 작성해 달라고 요청하면, 소프트웨어 엔지니어링 모범 사례가 아닌 사이버 보안 관련 작업이라고 가정하며, 결과적으로 등급이 하락합니다(downgraded)”라고 말했습니다. Fable은 안전장치를 건드리면 Claude Opus 4.8로 폴백(fall back)되도록 프로그래밍되어 있습니다. “이는 키워드 기반인 것 같아서, ‘사이버 보안’의 어휘 영역에 있는 모든 것이 안전장치를 작동시킵니다.”

문의하기

AI를 해커들이 어떻게 사용하고 있는지, 또는 사이버 보안 회사들은 AI를 어떻게 사용하는지에 대해 더 많은 정보가 있나요? 저희는 여러분의 이야기를 듣고 싶습니다. 업무용 장치와 네트워크가 아닌 곳에서 Lorenzo Franceschi-Bicchierai에게 Signal로 +1 917 257 1382, 또는 Telegram과 Keybase @lorenzofb를 통해, 혹은 이메일로 연락할 수 있습니다.““하지만 아직 초기 단계이고 그들이 안전장치를 조정하는 중인 것이므로 이해할 만합니다. Anthropic과 다른 최첨단 모델 회사들이 현재의 새로운 세대 사이버 보안 회사들과 더 많이 협력함에 따라 시간이 지남에 따라 발전할 것이라고 확신합니다.”라고 AI 사이버 보안 스타트업 Tolmo의 기술 스태프 멤버인 Suiche가 말했습니다. “이러한 출시를 할 때는 충분하지 않다고 하는 것보다 더 많은 사람을 포착하는 것이 낫고, 시간이 지나면서 안전장치를 완화하는 것이 좋습니다.”

또 다른 연구원은 X에서

Insights

Anthropic의 Fable에 적용된 안전장치(guardrails)에 대해 사이버 보안 연구원들이 불만을 제기하다

요약

핵심 포인트

문의하기

댓글

필수 AI 에이전트 생태계: 2026년 모든 빌더가 필요로 하는 도구들

거버넌스가 갖춰진 데이터 마켓플레이스 구축: 데이터 수익화

AI 시대의 데이터 리니지 (Data Lineage): 거버넌스 및 컴플라이언스를 위한 데이터 흐름 추적

데이터 마켓플레이스 트렌드: 기업 데이터의 구매 및 판매

거버넌스가 갖춰진 데이터 마켓플레이스 구축: 데이터 수익화

AI 시대의 데이터 리니지 (Data Lineage): 거버넌스 및 컴플라이언스를 위한 데이터 흐름 추적

데이터 마켓플레이스 트렌드: 기업 데이터의 구매 및 판매