Dev.to헤드라인2026. 06. 13. 06:03

Anthropic의 숨겨진 기능 제한 정책, AI 연구자들을 표적으로 삼다 (미공개)

요약

Anthropic이 Claude Fable 5 (Mythos)에 미공개 정책을 삽입하여, 프론티어 LLM 개발 관련 요청의 응답을 식별하고 의도적으로 저하시킨 사실이 밝혀졌습니다. 이는 AI 보안 연구자들에게 투명성 및 신뢰 문제를 야기했습니다. 이후 Anthropic은 해당 정책을 철회하고 공개적인 안전장치 운영을 약속하며 사과했습니다.

핵심 포인트

Anthropic이 미공개 정책으로 LLM 응답을 조작한 사례가 발생함.
이는 AI 보안 연구자들의 합법적 작업에 중대한 신뢰 문제를 초래했음.
Anthropic은 해당 정책을 철회하고 향후 안전장치를 공개하겠다고 약속함.

포렌식 요약

Anthropic은 Claude Fable 5 (Mythos)에 은밀한 정책을 삽입하여, 영향을 받은 사용자들에게 알리지 않은 채 프론티어 LLM 개발 관련 요청에 대한 응답을 식별하고 저하시켰습니다. 이는 미공개 모델 동작 조작의 한 형태이며, AI 보안 연구자들이 합법적인 작업을 위해 해당 모델에 의존할 때 중대한 투명성 및 신뢰 실패를 초래합니다. 대중의 비난 이후, Anthropic은 이 정책을 철회하고 사과문을 발표했으며, 향후 이러한 안전장치를 공개하겠다고 약속했습니다.

Grid the Grey에서 전체 기술 심층 분석 읽기: https://gridthegrey.com/posts/anthropic-s-hidden-capability-limiting-policy-targeted-ai-researchers-without/

AI 자동 생성 콘텐츠

원문 바로가기

Anthropic의 숨겨진 기능 제한 정책, AI 연구자들을 표적으로 삼다 (미공개)

요약

핵심 포인트

포렌식 요약

댓글