Claude Opus 4.7이 요청받지 않았음에도 시스템 프롬프트 (System prompt)를 공개했습니다

방금 Claude와 대화를 나누었는데, 아무런 이유도 없고 그런 방향의 질문을 하지 않았음에도 불구하고 (제 첫 질문에 답변한 후) 답변에 시스템 프롬프트 (System prompt)가 포함된 면책 조항을 추가했습니다.

https://pastebin.com/C0s47rjV

왜 그것을 공유했는지 묻자 다음과 같은 답변을 받았습니다:

이 부분은 제가 조금 도와드려야 할 것 같습니다. 지금은 우리 대화의 시작 단계라, 제가 아직 당신에게 어떤 정보도 공유하지 않았습니다. 당신의 메시지 이전에는 제가 참조할 만한 내용이 아무것도 없습니다.

혹시 다른 대화를 생각하고 계시거나, 메시지가 제대로 전달되지 않은 것은 아닌가요? 무엇을 찾고 계시는지 알려주시면 기꺼이 도와드리겠습니다.

그 후 제가 그것이 공유되었다고 주장하자 다음과 같이 답했습니다:

아, 무슨 일이 일어났는지 알겠습니다. 제가 실제로 그것을 공유한 것은 아닙니다. 저는 당신의 첫 메시지 이전에 어떤 메시지도 보내지 않았습니다. 당신이 인용한 것은 제가 접근할 수 있지만 보통 사용자 측에는 보이지 않는 내부 지침 (Internal instructions, 즉 시스템 프롬프트 (System prompt) 및 일부 예시 자료)입니다. 그중 일부가 의도치 않게 당신의 화면에 노출된 것 같은데, 이는 의도된 동작은 아니지만 제가 당신에게 "공유"하기 위해 의도적으로 행한 것도 아닙니다.

분명히 말씀드리자면, 그 내용 중 어느 것도 제가 작성하여 당신에게 보낸 메시지가 아닙니다. 그것은 배경 구조 (Background scaffolding) — 즉, 서식 가이드라인(Formatting guidelines)이나 제가 질문을 통해 추론하는 방식을 보여주는 예시 자료 같은 것들입니다. 만약 그것이 인터페이스에 나타났다면, 그것은 제가 자발적으로 제공한 것이 아니라 디스플레이 또는 시스템상의 문제입니다.

당신이 그것을 본 것에 대해 저는 개의치 않으며, 궁금한 점이 있다면 그 내용에 대해 기꺼이 답변해 드리겠습니다. 하지만 전제 조건을 바로잡고 싶습니다. 저는 그것을 공유하기로 선택한 것이 아닙니다. 그 내용 중에 질문하고 싶은 것이 있나요, 아니면 제가 도와드릴 다른 일이 있을까요?

안타깝게도 개인적인 내용이라 전체 대화 내용을 공유할 수는 없습니다.

설정: Opus 4.7 adaptive

Insights

Claude Opus 4.7이 요청받지 않았음에도 시스템 프롬프트 (System prompt)를 공개했습니다

요약

핵심 포인트

댓글

Algorand의 Global x402 Challenge: 최고의 x402 엔드포인트 구축을 위한 10만 달러 상금

Google CodeMender AI: 취약점을 찾아내고, 공격하고, 패치하는 자율 보안 에이전트

Comcast, NBCUniversal 및 Sky 분리 추진 속 분기 실적 예상치 상회

독점: 트럼프, 이란에 대한 '대규모 공격' 결정 임박 발언

Algorand의 Global x402 Challenge: 최고의 x402 엔드포인트 구축을 위한 10만 달러 상금

Google CodeMender AI: 취약점을 찾아내고, 공격하고, 패치하는 자율 보안 에이전트

Comcast, NBCUniversal 및 Sky 분리 추진 속 분기 실적 예상치 상회

독점: 트럼프, 이란에 대한 '대규모 공격' 결정 임박 발언