
너무 강해서 막았던 AI가 풀렸다가... 5일 만에 미국 정부 금지 | Claude Fable 5 논란 정리
요약
Anthropic이 강력한 성능의 Claude Fable 5를 공개하며, 보안 및 안전 이슈로 인해 일반 공개용과 제한적 제공용(Mythos 5) 모델로 이원화하여 운영하는 전략을 분석합니다.
핵심 포인트
- Claude Fable 5는 강력한 성능을 가졌으나 안전 분류기가 적용됨
- 사이버 보안, 생물학/화학, 디스틸레이션 위험으로 인해 모델 접근 권한을 차등 부여
- AI 경쟁의 핵심이 모델 성능을 넘어 안전 장치와 운영 구조로 이동 중
Video: 너무 강해서 막았던 AI가 풀렸다가... 5일 만에 미국 정부 금지 | Claude Fable 5 논란 정리
Channel: 안될공학 - IT 테크 신기술
Duration: 13m 37s
Source: subtitle (auto, ko)
Transcript:
la 5able 안녕하세요. 패치입니다. 컨텍스트 100만 토큰, 출력은 요청 한 번에 12만8, 토큰, 가격은 입력만 토큰당 10달러, 출력은 50달러. 어마어마한 스펙이죠. 앤트로픽이 클러드 페이블 5를 공개했습니다. 당사 표현으로 지금까지 일반 공개한 모델 중 가장 강력한 모델입니다. 그런데이 모델 사실 우리 두 달 전에 이미 본 적이 있습니다. 그때는 이름만 달랐죠. 미투스입니다. 지난 4월 엔트로픽이 보안 능력이 너무 강해서 일반 공개 계획은 없다라고 하면서 소수 파트너에게만 열어줬던 바로 그 모델인데요. findings could exploit and broken into. 그 모델이 두 달만에 5라는 이름을 달고 누구나 쓸 수 있도록 봉인 해제가 되었습니다. 물론 그냥 풀린 건 아니에요. 안전 장치가 붙었고 일부 요청은 다른 모델이 대신 답하고 데이터는 30일간 의무적으로 보존이 됩니다. 그리고 나서 두둥 출시 이틀 만에 엔트로픽은이 안전 장치 중에 하나 때문에 공식 사과까지 했습니다. 오늘 제가 가져온 얘기는 이거입니다.
너무 강해진 모델을 어디까지 풀어 줄 것인가? 그리고 그 제한을 사용자의 얼마나 솔직하게 알려 줄 것인가? 그럼 먼저 구조부터 정리해 볼게요. 이번에 나온 건 모델 두 개입니다. 페이블 5는 일반 공개 모델인데요. API로도 채페이스로도 누구나 쓸 수 있습니다. 미토스 5는 같은 계열의 모델이지만 프로젝트 글라스 윙이라는 제한된 프로그램을 통해서 승인된 소수의 고객에게만 제공이 됩니다. 공식 문서상으로 두 모델은 같은 스펙과 같은 가격으로 소개가 되는데요. 그럼 뭐가 다를까요? 페이블 5에는 세이프티클파이어 안전 분류기가 붙습니다. 미토스 5는 승인된 사용 범위 안에서이 안전 장치 일부가 해제가 됩니다. 같은 두뇌인데 누구에게 제공되느냐에 따라서 그 위에 언치는 운영 구조가 달라지게 되는 거죠. 그래서 이번 발표의 진짜 관전 포인트는 스펙 표가 아닙니다. AI 경쟁의 무대가 옮겨가고 있는데요. 예전에 모델 성능표였다면 이제는 그 모델을 누가 쓸 수 있는지, 어떤 안전 장치가 붙는지, 그리고 데이터는 어떻게 다루는지 이렇게 모델을 감싸고 있는 것들로 옮겨가고 있습니다.
그럼 왜 굳이 이렇게 나눴을까요? 엔트로픽이 말하는 가장 큰 이유는 세 가지인데요. 사이버 보안, 생물학과 화학, 그리고 디스틸레이션입니다. 사이버 보안은 감히 딱 오시죠. 고성능 모델은 코드를 잘 읽고 취약점을 잘 찾고 공격 가능성도 더 잘 판단할 수 있습니다. 그래서 방어자에게는 굉장히 유용하죠. 보안 팀이 방대한 코드 베이스를 훑고 오래된 오픈 소스의 취약점을 찾고 패치 우선 순위를 정하는데 도움을 줄 수 있으니까요. 하지만 같은 능력이 공격자에게 넘어가게 되면 이야기가 달라지죠. 취약점을 더 빨리 찾고 더 넓게 훑고 그러면 더 구체적인 공격 경로를 만들 수 있게 됩니다. 생물학과 화학도 비슷한데요. 연구자에게는 신약 개발이나 실험 설계에 아주 도움이 되지만 잘못 쓰게 되면 위험한 지식에 가까워질 수 있습니다. 그리고 세 번째가 디스틸레이션인데요. 큰 모델의 출력을 가져다가 다른 모델을 가르치는 겁니다. 쉽게 말해서 큰 모델의 지식을 빼서 작은 모델이나 경쟁 모델에 이렇게 옮겨 담는 거죠. 사이버 보안이나 생물학이 외부 피해와 관련된 문제라면 디스틸레이션은 성격이 좀 다릅니다.
여기에는 안전 문제도 있지만 동시에 AI 회사의 기술자, 그러니까 경쟁사가 쉽게 못 따라오게 만드는 이런 진입 장벽이죠. 이게 같이 걸려 있습니다. 엔트로픽의 설명은 이런데요. 페이블 5 정도 되는 능력이 대규모로 추출이 되면 최상위급에 거의 근접한 AI 능력이 적절한 안전 장치도 없이 널리 퍼져 나갈 수 있다는 겁니다. 그런데 동시에 이건 경쟁사가 우리 모델로 자신의 모델을 만들 수도 있다라는 문제도 겹치게 됩니다. 같은 안전 장치가 공공안전, 국가 안보, 자사 IP 보호를 한꺼번에 다루게 되는 구조인 거죠. 여기서 이번 발표에 핵심 기술 구조가 나오게 됩니다. 페이블 5의 안전 장치는 단순한 금치거 필터가 아닌데요. 별도의 AI 클라스파이어가 사용자의 요청을 먼저 봅니다. 사이버 보안, 생물학, 화학, 디스틸레이션처럼 이렇게 위험도가 높은 영역에 걸리는지 먼저 판단을 하는 겁니다. 그리고 클래스파이어가 발동하면 페이블 5가 그대로 답하지 않습니다. 응답이 바로 클로드 오프스 4.8로 넘어가 버리는데요.
엔트로픽은 이걸 단순 거절보다 나은 경험으로 설명을 합니다. 오프스 4.8도 충분히 강력한 모델이니까 합법적인 범위 안에서는 도움을 줄 수 있다는 거죠. 그리고 공식 설명대로라면 이렇게 넘어갈 때한테 알려 주게 되어 있습니다. 이게 바로 첫 번째 층입니다. 눈에 보이는 안전 장치. 그런데 이번 논란은 여기서 끝나지 않았습니다. 출시직후 문제가 된 건 AI 개발 관련 요청이었는데요. 여기에서 용어를 구분해야 합니다. 디스틸레이션은 아까 말씀드린 대로 기존 모델의 출력을 추출해서 다른 모델을 가르치는 행위이거든요. 반면 프ti LLM 디elop먼트는 더 넓습니다. 최첨단 AI 모델을 직접 만드는데 필요한 것들 전반을 말해요. 학습 시스템을 어떻게 짤지, 수천장의 GPU를 어떻게 굴릴지, AI칩을 어떻게 설계할지 이런 것들을 물어보는 요청들이죠. 현재 엔트로픽 공식 설명에 따르면 사이버 보안이나 생물학 화학과 함께 보이는 오프스 4.8 폴백 대상입니다. 그런데 프런티어 LM 디velop로먼트 쪽은 좀 다릅니다.
여기에는 사용자에게 보이지 않는 장치가 들어가 있었어요. 보이지 않는 개입이라는게 과연 뭘까요? 이건 제 추측이 아니고요. 시스템 카드의 엔트로픽이 직접 적어 놓은 단어들입니다. 프롬트모디피케이션, 스티어링 벡터 그리고 패프트. 하나씩 볼게요. 프롬트 모디피케이션은 사용자의 요청 앞 뒤에다가 시스템이 보이지 않는 지시를 붙여서 답변 방향을 바꾸는 거예요. 스티어링 덱는 한 단계 조금 더 깊습니다. 모델이 답을 만들어내는 머릿속의 회로. 그러니까 특장 레이어의 활성화 값에 살짝 손을 대서 어떤 주제에서는 답이 특정 방향으로 이렇게 기울게 만드는 기법입니다. 모델을 다시 가르치는게 아니라 생각의 방향만 이렇게 슬쩍 트는 거죠. 패프트는 파라미터 에피시트 파인 튜닝 그러니까 전체 모델을 다시 학습시키는게 아니라 일부 파라미터만 콕 집어서 미세 조정을 하는 방식입니다. 로라 같은 기법을 떠올리시면 되는데요. 사람으로 비유를 해 보자면 이래요. 프럼트 모디피케이션은 너지 여덟 질문지 자체를 슬쩍 바꿔치기 해서 답이 달라지게 만드는 거죠.
그리고 스티어링 벡터는 그거보다 좀 더 깊게 환경이 아니라 머릿속에 직접 손을 대는 겁니다. 특정 주제만 떠올리려고 하면 생각이 이렇게 옆으로 세도록 말이죠. 그리고 패프트는 부분 재교육인데요. 그 주제에 대해서만 따로 과일을 시켜서 아예 다르게 답을 하게 만드는 거죠. 정리를 하자면 질문을 바꾸거나 생각을 틀거나 아니면 사람을 바꾸거나 셋다 사용자는 알 수가 없습니다. 모델이 답할 수 없습니다라고 말하는게 아니거든요. 겉으로는 답을 합니다. 그런데 그 답이 모델이 낼 수 있었던 최선의 답안지인지 아니면 안전 장치가 개입을 해서 일부러 좀 이렇게 흐려진 답인지 사용자는 알 수가 없는 거죠. 이건 특히 개발자와 연구자에게 아주 치명적인데요. 새 모델을 평가하려고 테스트를 했는데 결과가 이상하다면 그게 바로 모델의 한계인지 아니면 안전 장치의 개입인지 구분이 안 되니까 이게 평가 자체가 무의미해지는 일이 됩니다. 반발은 아주 격렬했습니다. 그리고 엔트로픽은 출시 이틀 만에 뒤로 물러섰죠. 우리가 균형을 잘못 잡았다 사과합니다.
프런티어 LLM 디벨롭트 관련 세이프가드도 다른 영역들처럼 사용자가 볼 수 있는 오프스 4.8 폴백 방식으로 바꾸겠다고 밝혔습니다. 그런데 뭐 편을 들자는 건 아니지만 엔트로픽의 처음 판단도 사실 이유는 있었습니다. 보이는 안전 장치는 투명하지만 공격자에게도 힌트를 주게 됩니다. 어떤 질문에서 제한이 걸리는지 바로 알 수 있으니까 우회 방법을 더 빨리 쓸럼할 수 있겠죠. 보이지 않는 안전 장치는 그 반대입니다. 공격자가 발동 여부를 모르니까 방어 입장에서는 아주 매력적이지만 그건 사용자의 신뢰를 건드리게 되죠. 내가 받은 답이 진짜이 모델의 답인가?이 이 질문에 답할 수 없는 모델 위에는 아무도 중요한 걸 올리려 하지 않을 테니까요. 여기에 숫자 하나를 겹쳐 보면이 갈등이 더 선명해집니다. 엔트로피 공식 설명으로는 안전 장치가 발동하는 건 전체 세션의 5% 미만입니다. 95% 이상은 페이블 5가 개입 없이 그대로 작동을 한다는 거죠. 그런데 출시 직후에 무해한 요청까지 잡아버리는 오탐 얘기가 터져 나왔습니다.
그리고 앤트로픽도 인정을 해 버렸어요. 빨리 안전하게 내보내려고 일부러 보수적으로 튜닝했다라고요. 평균 5%의 함정이 바로 여기 있습니다. 일반 사용자는 거의 못 느낄 수도 있어요. 하지만 보안, 코딩, AI 개발처럼 정작이 모델의 강한 능력이 제일 필요한 사람들이 바로 그 안전 장치와 제일 자주 부딪히게 됩니다. 여기에 또 하나 조용하지만 가장 현실적인 조건이 붙는데요. 그건 바로 데이터 보존입니다. 엔트로픽은 페이블 5와 미토스 5의 모든 트래픽에 대해서 30일 데이터 보존을 의무로 걸어 놨습니다. 보통 기업 고객들은 내 데이터를 아예 남기지 말라는 옵션 ZDR이라는 걸 쓸 수 있는데요.이 모델에서는 그게 안 됩니다. 무조건 30일은 남아야 하는 거예요. 엔트로픽의 설명은 이렇습니다.이 이 데이터는 모델 학습이나 다른 용도에 쓰지 않고 오직 보안 목적으로만 쓰게 된다. 새로운 제일 브레이커를 잡고 여러 요청에 걸쳐서 조각조각 나눠 들어오는 공격을 분석하고 오탐을 줄이기 위해서이다. 사람이이 데이터에 접근을 하면 그 기록도 전부 로그 남기고 30일이 지나면 삭제가 된다.
음. 물론 기술적으로는 이해가 되죠. 한 번에 위험한 걸 묻지 않고 여러 턴에 나눠서 정보를 모으는 공격은 요청 하나만 보는 분류기로는 잡을 수가 없으니까요. 그리고이 조건이 실제로 어떻게 작동하는지 벌써 사례가 나왔습니다. 바로 기터 코파일럿인데요. 코파일럿에서 다른 클로드 모델들 오프스 4.8, 소네 4.5 이것들은 전부 ZDR이 데이터 무 보존으로 돌아갑니다. 그런데 페이블 5만 30일 보존이 필수적입니다. 그럼 조직 관리자가이 정책에 동의하지 않으면 어떻게 될까요? 그 회사에서는 페이블 5 메뉴가 아예 안 뜨게 되겠죠. 같은 회사, 같은 엔트로픽 모델인데 페이블 5만 조건이 다른 겁니다. 이게 바로 한국 기업들한테도 그대로 적용이 되는 질문입니다. 삼성, SK, LG 같은 제조사가 내부 코드랑 설계 자료 같은 거 그리고 금융사가 고객 데이터를 보안 기업이 로그와 취약점 정보를이 모델에 넣으려는 순간 우리가 생각하게 되는 건 성능이 제일 좋은가? 이게 아니고 30일 보존 조건이 우리 보안 규정과 충돌하지 않는가?
이게 먼저 걸리게 됩니다. 이제 기업용 AI 도입은 성능과 접근권, 데이터 보존, 안전 장치의 투명성, 그리고 문제가 생겼을 때 기록을 추적할 수 있는지까지 다 같이 한묶음으로 봐야 하는 일이 돼 버렸습니다. 거꾸로 국내 클라우드와 보안 기업에게는 기회이겠죠. 모델을 직접 만드는 것만의 경쟁이 아니라 기업 안에서 AI를 안전하게 쓰도록 라우팅하고 권한을 나누고 로그를 남기고 민감한 데이터를 통제하는 영역이 더 커질 테니까요. 오해는 두 가지만 정리하고 가실게요. 첫째, 안전 장치가 붙었다고 해서 페이블 5가 약한 모델인 건 절대 아닙니다. 100만 토큰 컨텍스트에 며칠짜리 작업을 뚝딱뚝딱 혼자 해내는 에이전트 능력까지 앤트로픽이 일반에 공개한 모델 중 가장 강력한 모델이 맞습니다. 둘째는 안전 장치가 완벽하다는 보장도 사실 외브 레드티밍에서 안전 장치를 통째로 무력화하는 유니버셜 제일 브레이크는 아직 안 나왔다고 하지만 모델이 강해질수록 뚫르려는 시도도 아주 정교해질 겁니다. 앞으로 우리가 눈여겨 볼 포인트는네 가지 정도인데요.
하나 엔트로픽이 약속한 대로 세이프 가드를 투명하게 운영하는지 언제 오프스 4.8로 넘어가는지 그리고 왜 거절됐는지 사용자가 알 수 있어야 합니다. 두 번째는 미투스 5의 접근 범위가 어디까지 열리는지 보안 조직이나 바이오 연구 기간 대형 기업 순으로 이렇게 차차 확대될지를 지켜봐야 합니다. 세 번째는 경쟁사들의 선택 오픈 AI나 구글 딥마인드 그리고 메타도 같은 문제 앞에서 있습니다. 이들이 모델 능력을 단계별로 나누고 접근권을 제품 구조에 넣을지가 우리의 다음 관점 포인트입니다. 마지막으로 실제 기업 도입에서 성능보다 먼저 부딪히는 조건이 무엇인지 그게 비용일 수도, 데이터 보존일 수도, 그리고 오탐일 수도 있습니다. 그래서 이번 발표를 한 문장으로 정리하면 이렇게 될 거 같은데요. AI 경쟁의 다음 라운드는 더 강한 모델을 만드는 싸움이 아니라 그 강함을 누구에게, 어떻게 얼마나 솔직하게 열어 주느냐의 싸움이다. 앤트로픽은 첫 수를 뒀고 한 번 사과했고 방향을 수정했습니다. 이제 다른 회사들이 어떤 수를 두는지 지켜볼 차례인데요.
그럼 오늘은 여기까지 안들공학 패치였습니다. 입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube 안될공학 (IT/테크)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기