은유가 Attention의 전부가 아니다

대규모 언어 모델 (Large language models)은 안전이 중요한 애플리케이션에 점점 더 많이 배치되고 있으며, 여기서 유해한 지시 사항에 저항하는 능력은 필수적입니다. 사후 학습 (post-training)은 모델이 다양한 탈옥 (jailbreak) 전략에 대해 견고해지도록 목표로 하지만, 최근의 증거에 따르면 시적 변환 (poetic transformation)과 같은 문체적 재구성 (stylistic reformulations)이 여전히 놀라운 효과로 안전 메커니즘을 우회할 수 있음을 보여줍니다. 이는 핵심적인 질문을 제기합니다: 왜 문학적 탈옥 (literary jailbreaks)이 성공하는가? 본 연구에서는 이러한 효과가 특정 시적 장치 (poetic devices)에 의존하는지, 문학적 형식 (literary formatting)을 인식하지 못하는 것인지, 아니면 모델이 문체적으로 불규칙한 프롬프트 (stylistically irregular prompts)를 처리하는 방식의 더 깊은 변화에 의한 것인지 조사합니다. 우리는 어텐션 패턴 (attention patterns)의 해석 가능성 분석 (interpretability analysis)을 통해 이 문제를 다룹니다. 우리는 개별 시적 장치 및 그 조합의 기여도를 평가하기 위해 입력 수준의 절제 연구 (input-level ablation studies)를 수행하고, 어텐션 맵 (attention maps)의 해석 가능한 벡터 표현을 구축하며, 이러한 표현들을 클러스터링 (cluster)하고 안전 결과와 문학적 형식을 예측하기 위한 선형 프로브 (linear probes)를 훈련합니다. 연구 결과, 모델은 시적 형식과 산문 형식을 높은 정확도로 구분하지만, 각 형식 내에서 탈옥 성공 여부를 예측하는 데는 어려움을 겪는 것으로 나타났습니다. 클러스터링은 문학적 형식에 따른 명확한 분리는 보여주지만, 안전 레이블 (safety label)에 따른 분리는 보여주지 않습니다. 이러한 발견은 탈옥 성공이 시적 형식을 인식하지 못해서 발생하는 것이 아님을 나타냅니다. 오히려 시적 프롬프트는 유해 콘텐츠 탐지 (harmful-content detection)와는 대체로 독립적으로 유지되는 별개의 처리 패턴을 유도합니다. 전반적으로, 문학적 탈옥은 단일한 시적 장치를 통해서가 아니라, 프롬프트 처리를 변경하고 사후 학습 (post-training) 중에 고려된 어휘적 트리거 (lexical triggers)를 회피하는 누적된 문체적 불규칙성 (stylistic irregularities)을 통해 대규모 언어 모델을 정렬 불량 (misalign) 상태로 만드는 것으로 보입니다. 이는 견고성 (robustness)을 확보하기 위해서는 모델 행동의 스타일 유도 변화 (style-induced shifts)를 고려하는 안전 메커니즘이 필요함을 시사합니다. 우리는 대표적인 오픈 웨이트 (open-weight) 사례 연구로 Qwen3-14B를 사용합니다.

Insights

은유가 Attention의 전부가 아니다

요약

핵심 포인트

댓글

1년 동안 운용하며 정착된 CLAUDE.md 양식 【복사해서 사용하는 템플릿 · 「폐지된 방침」 섹션 포함】

이 CFO는 방금 자신의 회사 주식을 저평가된 상태라고 불렀습니다 — 그가 옳다는 이유

주가 반등으로 자산 2,220억 달러를 기록하며 세계 5대 부호가 된 Zuckerberg

토론 주도 개발 (Debate-Driven Development): 코드를 두고 논쟁하는 AI 에이전트가 버그를 30% 더 많이 잡아내는 이유

이 CFO는 방금 자신의 회사 주식을 저평가된 상태라고 불렀습니다 — 그가 옳다는 이유

주가 반등으로 자산 2,220억 달러를 기록하며 세계 5대 부호가 된 Zuckerberg

토론 주도 개발 (Debate-Driven Development): 코드를 두고 논쟁하는 AI 에이전트가 버그를 30% 더 많이 잡아내는 이유