Anthropic의 Mythos 모델이 수출 통제로 인해 3일 만에 철수되었습니다. 유출된 프롬프트는 실제 작동 방식을 보여주며, Claude
요약
Anthropic의 Mythos 모델이 수출 통제로 인해 조기 철수되었으나, 유출된 시스템 프롬프트를 통해 모델의 동작 원리가 밝혀졌습니다. 분석 결과, 모델의 특정 태도와 습관은 가중치가 아닌 지시 계층(instruction-layer)에 의해 제어됨이 확인되었습니다.
핵심 포인트
- Mythos 모델의 성향(태도, 도구 사용 등)은 가중치가 아닌 프롬프트 계층에 존재함
- 유출된 프롬프트를 Opus 모델에 적용하여 유사한 동작 구현 가능
- 프롬프트로 성향은 모사할 수 있으나 추론 깊이와 같은 근본적 능력은 한계가 있음
- fable-mode 오픈소스 프로젝트를 통해 관련 설정 적용 가능
Anthropic의 Mythos급 모델은 미국의 수출 통제 지침(export-control directive)으로 인해 철수되기 전 72시간 동안 공개적으로 운영되었습니다. 중단되기 전에 시스템 프롬프트(system prompt)가 유출되었습니다.
이를 살펴보며 놀랐던 점은, Fable을 다르게 느껴지게 했던 많은 요소들 — 직설적인 태도, 검증 습관, 도구 사용(tool-use) 본능 — 이 가중치(weights)가 아닌 지시 계층(instruction-layer)에 있다는 것입니다. 해당 프롬프트를 Opus 4.8에서 실행하면 출력의 성격이 실제로 측정 가능한 방식으로 변화합니다.
저는 며칠 동안 이를 사용 가능한 번들로 만드는 데 시간을 보냈습니다: fable-mode (https://github.com/HalalifyMusic/fable-mode)
Opus에서 가장 효과가 큰 부분:
- Fable은 파일 편집 후 약 60-80%의 확률로 테스트를 실행했습니다. PostToolUse 훅(hook)을 사용하면 100%까지 도달할 수 있는데, 이는 모델이 의지력으로 유지해야 하는 습관이 더 이상 아니기 때문입니다.
- 근거 제시 습관(evidence ledger, cold verifier agent)은 기술로서 깔끔하게 전이됩니다.
- 말투(Voice), 포맷팅 밀도, 병렬성 본능은 프롬프트를 통해 잘 전이됩니다.
전이되지 않는 부분: 가공되지 않은 추론 깊이(raw reasoning depth), 장기적 자율성(long-horizon autonomy), 설계 직관(design intuition). 이것들은 가중치에 종속되어 있습니다. 프롬프트는 Fable의 성향(disposition)을 얻게 해주지만, 그 한계치(ceiling)를 얻게 해주지는 않습니다.
하나의 클론, 하나의 설치 스크립트: git clone https://github.com/HalalifyMusic/fable-mode && cd fable-mode && ./install.sh 또는 그냥 Claude에게 URL을 주고 설정을 해달라고 요청하세요.
submitted by /u/Confident-Count-2832
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기