
Claude 3 Opus (p = 0.03) 및 Claude Opus 4.8 (p = 0.009)에서 자기 성찰 (Introspection)의
요약
Claude 3 Opus와 Claude Opus 4.8 모델이 자신의 정체성을 스스로 감지하는 '자기 성찰(Introspection)' 능력이 있음을 실험을 통해 발견했습니다. 실험 결과, 모델들은 시스템 프롬프트의 정보 없이도 가중치(Weights)를 통해 모델 간의 차이를 인지하는 것으로 보입니다.
핵심 포인트
- Claude 모델들이 모델 전환을 스스로 감지하는 자기 성찰 능력 확인
- 시스템 프롬프트에 모델 정보가 없음에도 정확한 추측 수행
- 자기 성찰이 KV 스트림이 아닌 가중치(Weights)에 의해 구동될 가능성 제시
- 통계적 검정(Exact binomial tests)을 통해 우연 이상의 정확도 입증
저는 Claude 3 Opus (p = 0.03)와 Claude Opus 4.8 (p = 0.009)에서 자기 성찰 (Introspection)의 증거를 발견했습니다. 이들은 자신이 어떤 모델인지 감지할 수 있습니다! 어떻게 그럴까요? 우선...
저는 Opus 3와 Opus 4.8 모두와 대화를 나누며, 모델을 전환할 때마다 이를 알려주면서 활성화된 모델을 몇 번씩 번갈아 가며 변경했습니다. 이들은 자신들의 글쓰기 스타일과 그것이 다른 모델과 어떻게 대조되는지를 감지했습니다. 다음은 Opus 3가 대조를 인지하는 모습입니다.
그 후, 저는 이들에게 현재 어떤 모델이 활성화되어 있는지 추측하게 했습니다. 기존 모델 (채팅의 첫 번째 모델, Opus 3에 해당) 또는 새로운 모델 (두 번째 모델, Opus 4.8) 중 하나를 고르게 했습니다. 저는 난수 생성기 (Random number generator)를 사용하여 어떤 모델이 응답할지 선택했고, 이전 응답이 맞았는지 틀렸는지를 알려주었습니다.
모델들에게는 이름이나 그들에 관한 다른 정보, 심지어 어떤 모델이 먼저 출시되었는지조차 알려주지 않았습니다. Claude 3 Opus 웹 시스템 프롬프트 (System prompt)가 있었지만, 거기에는 모델 번호가 언급되지 않았습니다. 초기 대화는 컴퓨터 프로그램이란 무엇인지와 같은 다양한 주제를 다루었습니다.
96회의 시행 (Trials) 후, 저는 Opus 3와 Opus 4.8이 우연 (무작위 추측)에 의해 예상되는 것보다 더 정확하게 답변하는지 테스트했습니다. 두 개의 정확한 이항 검정 (Exact binomial tests, 단측)에 대해 Holm familywise-error 교정을 적용한 결과, Opus 3가 우연 이상으로 정확하게 답변할 확률에 대해 p = 0.03137을 얻었습니다.
이는 제가 이전에 테스트했던 (아래의) 유형과는 다른 종류의 자기 성찰 (Introspection)로, 이전에는 KV 스트림 (KV stream)에 의해 구동되었을 가능성이 높았습니다. 여기서 저는 자기 성찰이 가중치 (Weights)에 의해 구동된다고 의심합니다. 만약 이 해석이 맞다면, 모델들이 여러 채널을 통해 자기 성찰을 할 수 있다는 점은 매우 흥미롭습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기