arXiv논문2026. 06. 09. 11:53

PRISM: 언어 모델 활성화(Activations)로부터 지시 세트(Instruction Sets) 복구하기

요약

PRISM은 LLM의 은닉 상태(Hidden states)로부터 모델을 유도하는 지시 세트를 복구하는 새로운 연구를 소개합니다. Judge-guided GRPO 방식을 통해 모델의 의도된 지시, 제약 사항, 숨겨진 목표 등을 정확하게 디코딩하여 에이전트의 신뢰성을 모니터링합니다.

핵심 포인트

LLM의 은닉 상태에서 지시 세트를 복구하는 PRISM 제안
Judge-guided GRPO를 통한 지시 사항 디코딩 최적화
프롬프트 주입 및 숨겨진 목표 탐지에 탁월한 성능
에이전트 환경의 신뢰할 수 있는 모니터링 방법론 제시

LLM(Large Language Models)이 에이전트(Agents)로 배포됨에 따라, 신뢰할 수 있는 모니터링을 위해서는 모델이 무엇을 출력하는지뿐만 아니라, 어떤 지시(Instructions)가 모델의 행동을 유도하고 있는지를 아는 것이 필요합니다. 모델이 의도하지 않은 하위 목표(Subgoals)를 추론하거나, 문맥적 단서(Contextual cues)를 따르거나, 프롬프트 주입(Prompt injections) 및 숨겨진 목표(Hidden objectives)의 영향을 받을 때 이는 매우 어려운 과제가 됩니다. 활성화-언어(Activation-to-language) 방식은 은닉 상태(Hidden states)가 자연어 정보를 드러낼 수 있음을 시사하지만, 기존 방식들은 에이전트 환경에서 동시에 활성화된 지시, 제약 사항(Constraints), 금지 사항(Prohibitions) 및 하위 목표의 전체 세트를 복구하도록 설계되지 않았습니다. 우리는 이 문제를 지시 세트 검색(Instruction set retrieval)으로 공식화하고, 동결된 타겟 모델(Frozen target model)의 은닉 상태를 활성화된 지시 사항의 충실한 불렛 리스트(Bullet list)로 디코딩하는 활성화 조건부 해석기(Activation-conditioned interpreter)인 PRISM을 소개합니다. 이전의 활성화-언어 방식과 달리, PRISM은 포함된 지시는 보상하고 근거 없는 지시는 벌칙을 주는 판사 가이드 GRPO(Judge-guided GRPO)를 사용하여 지시 세트를 직접 복구하도록 학습됩니다. 양호한(Benign), 제약된(Constrained), 프롬프트 주입(Prompt-injection) 및 숨겨진 목표(Hidden-objective) 환경 전반에 걸쳐, PRISM은 특히 보안 관련 목표에서 활성화-언어 베이스라인(Baselines)보다 뛰어난 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

PRISM: 언어 모델 활성화(Activations)로부터 지시 세트(Instruction Sets) 복구하기

요약

핵심 포인트

댓글