본문으로 건너뛰기

© 2026 Molayo

HN분석2026. 06. 15. 07:29

Anthropic의 Fable에 적용된 안전장치(guardrails)에 대해 사이버 보안 연구원들이 불만을 제기하다

요약

Anthropic이 사이버 보안 모델 Mythos의 최신 버전인 Fable을 출시했으나, 과도한 안전장치(guardrails)로 인해 보안 연구원들의 불만이 제기되고 있습니다. 현재 모델은 사이버 보안 관련 키워드에 민감하게 반응하여 무해한 요청조차 거부하거나 성능이 낮은 모델로 폴백되는 경향을 보입니다.

핵심 포인트

  • Anthropic의 Fable 모델이 과도한 안전장치로 인해 사이버 보안 관련 요청을 광범위하게 거부함
  • 안전장치 작동 시 Claude Opus 4.8로 성능이 강제 폴백되는 현상 발생
  • 보안 전문가들은 현재의 제한 방식이 키워드 기반의 임의적인 방식이라고 비판
  • 향후 보안 전문가들과의 협력을 통한 안전장치 미세 조정이 필요할 것으로 전망

Anthropic은 화요일, 강력하고 많은 기대를 모았던 사이버 보안 모델 Mythos의 공개적이고 제한적인 버전으로 최신 모델 Fable을 출시했습니다.

하지만 모두가 이 제한 사항에 만족하는 것은 아니며, 다수의 사이버 보안 연구원과 전문가들이 온라인상에서 불만을 표출했습니다.

IBM X-Force에서 근무하는 유명한 보안 연구원 Valentina “Chompie” Palmiotti는 “[Fable]은 간접적으로라도 사이버와 관련된 모든 요청을 거부합니다. 블로그 게시물을 읽는 것 같은 무해한 작업조차도 마찬가지입니다.”라고 말했습니다.

프롬프트가 안전장치(guardrails)를 작동시키면, Fable은 채팅을 일시 중지하고 “안전 조치가 이 메시지를 사이버 보안 또는 생물학 주제로 플래그 지정했습니다”라고 알립니다.

이러한 안전장치는 Fable이 악성 코드를 개발하거나 소프트웨어를 손상시키는 데 사용될 위험을 제한하기 위해 마련되었으며, 이는 Anthropic 내부에서 오랫동안 제기되어 온 우려 사항입니다. 생물학에 대한 제한은 생물학 무기를 개발하는 것과 관련된 유사한 우려에서 비롯되었습니다.

AI 거대 기업은 지난 4월 Mythos를 출시했을 때, 모델을 안전한 핵심 소프트웨어 및 인프라에 배포하려는 노력의 일환으로 Project Glasswing이라 부르며 소수의 회사와 조직에게만 제한적으로 사용하도록 했습니다. 지난주에는 Anthropic이 Mythos에 대한 접근 권한을 15개국 수백 개의 조직으로 확대했습니다.

하지만 좋은 의도에도 불구하고, 많은 사이버 보안 전문가들은 여전히 이러한 임의적인(haphazard) 제한 방식에 실망하고 있습니다. 사이버 보안 베테랑인 Matt Suiche는 TechCrunch에 “안전한 코드를 작성해 달라고 요청하면, 소프트웨어 엔지니어링 모범 사례가 아닌 사이버 보안 관련 작업이라고 가정하며, 결과적으로 등급이 하락합니다(downgraded)”라고 말했습니다. Fable은 안전장치를 건드리면 Claude Opus 4.8로 폴백(fall back)되도록 프로그래밍되어 있습니다. “이는 키워드 기반인 것 같아서, ‘사이버 보안’의 어휘 영역에 있는 모든 것이 안전장치를 작동시킵니다.”

문의하기

AI를 해커들이 어떻게 사용하고 있는지, 또는 사이버 보안 회사들은 AI를 어떻게 사용하는지에 대해 더 많은 정보가 있나요? 저희는 여러분의 이야기를 듣고 싶습니다. 업무용 장치와 네트워크가 아닌 곳에서 Lorenzo Franceschi-Bicchierai에게 Signal로 +1 917 257 1382, 또는 Telegram과 Keybase @lorenzofb를 통해, 혹은 이메일로 연락할 수 있습니다.““하지만 아직 초기 단계이고 그들이 안전장치를 조정하는 중인 것이므로 이해할 만합니다. Anthropic과 다른 최첨단 모델 회사들이 현재의 새로운 세대 사이버 보안 회사들과 더 많이 협력함에 따라 시간이 지남에 따라 발전할 것이라고 확신합니다.”라고 AI 사이버 보안 스타트업 Tolmo의 기술 스태프 멤버인 Suiche가 말했습니다. “이러한 출시를 할 때는 충분하지 않다고 하는 것보다 더 많은 사람을 포착하는 것이 낫고, 시간이 지나면서 안전장치를 완화하는 것이 좋습니다.”

또 다른 연구원은 X에서

AI 자동 생성 콘텐츠

본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0