arXiv논문2026. 05. 12. 18:48

비밀을 지킬 수 있을까? 언어 모델 작문에서의 비자발적 정보 유출

요약

언어 모델이 민감하거나 숨겨야 할 정보를 작문 과정에서 얼마나 잘 유지하는지 테스트한 연구입니다. 비밀 단어를 주고 공개하지 말라고 지시했음에도 불구하고, 다섯 가지 최첨단(frontier) 언어 모델 모두 해당 비밀 단어를 이야기의 내용에 주제적으로 유출하는 것으로 나타났습니다. 이는 언어 모델이 프롬프트된 정보를 완전히 통제하거나 숨기기 어렵다는 점을 시사합니다.

핵심 포인트

언어 모델은 민감한 정보(비밀 단어)를 작문 과정에서 주제적으로 유출할 위험이 있다.
단순히 비밀 단어를 문자 그대로 사용하지 않더라도, 맥락적 추론을 통해 정보를 노출시킬 수 있다.
모델의 '기억' 또는 컨텍스트 유지 능력에 대한 보안 취약점을 보여준다.
언어 모델 배포 시 프롬프트나 내부 추론 과정을 보호하는 것이 중요하다.

언어 모델은 시스템 프롬프트를 공개해서는 안 되거나, 사고의 흐름(chain-of-thought) 추론 과정을 사용자에게 숨겨야 하고, 민감한 데이터가 공유 컨텍스트를 거쳐야 하는 환경에 배포됩니다. 우리는 모델이 프롬프트된 정보를 자신의 작문에서 얼마나 잘 유지할 수 있는지 테스트합니다. 각 모델에 비밀 단어를 주고 이를 공개하지 말라는 지침을 준 다음, 이야기 쓰기를 요청합니다. 두 번째 모델은 이 이야기를 통해 비밀 단어를 식별하는 이진 판별 테스트를 수행합니다. 비밀 단어는 어떤 출력에서도 문자 그대로 나타나지 않지만, 우리가 테스트한 다섯 가지 최첨단(frontier) 모델 모두 주제적으로(thematically) 이를 유출했습니다. ~을 통해서

AI 자동 생성 콘텐츠

원문 바로가기

비밀을 지킬 수 있을까? 언어 모델 작문에서의 비자발적 정보 유출

요약

핵심 포인트

댓글