IHDec: 다중 턴 지시 계층 (Instruction Hierarchies) 보안을 위한 발산 유도 대조 디코딩
요약
LLM이 다중 턴 대화에서 지시 계층(Instruction Hierarchies)을 유지하지 못하는 문제를 해결하기 위한 IHDec를 제안합니다. JSD 프레임워크를 활용해 별도의 미세 조정 없이도 토큰 수준에서 계층 위반을 감지하고 대조 디코딩을 통해 이를 교정합니다.
핵심 포인트
- 다중 턴 문맥에서의 역할 영향 역전 현상 규명
- JSD 기반의 IHDec(Instruction Hierarchy-steered Decoding) 제안
- 추가 학습 없이 대조 디코딩을 통한 지시 계층 유지
- 적대적 프롬프트 주입에 대한 보안성 및 안전성 강화
- 모델 크기에 따른 강력한 스케일링 시너지 입증
대규모 언어 모델 (LLMs)은 역할 수준의 우선순위가 서로 다른 다중 소스 입력을 처리할 때, 충돌 상황에서 역설적으로 우선순위가 낮은 지시 사항을 준수함으로써 지시 계층 (Instruction Hierarchies, IH)을 유지하는 데 종종 실패합니다. 기존의 방어 기제들이 이 문제를 완화하고 있지만, 이들은 주로 단일 턴 (single-turn) 시나리오에 국한되어 있으며 비용이 많이 드는 미세 조정 (fine-tuning)을 필요로 합니다. 본 논문에서는 Jensen-Shannon 발산 (Jensen-Shannon Divergence, JSD) 프레임워크를 통해 다중 턴 (multi-turn) 문맥에서의 이러한 실패 모드를 공식화하며, 하위 입력이 상위 역할을 무시하는 만연한 역할 영향 역전 (role-influence inversion) 현상을 밝혀냅니다. 별도의 학습 없이 이를 바로잡기 위해, 우리는 IHDec (Instruction Hierarchy-steered Decoding)를 제안합니다. IHDec는 JSD를 활용하여 토큰 수준의 계층 위반을 자동으로 감지하고, 정렬되지 않은 하위 역할을 억제하기 위해 대조 디코딩 (contrastive decoding)을 동적으로 실행합니다. 광범위한 평가를 통해 IHDec가 일반적인 응답 품질을 완전히 보존하면서도 다중 턴 충돌 상황에서 학습 기반 베이스라인 모델들보다 우수한 성능을 보임을 입증했습니다. 또한, IHDec는 적대적 프롬프트 주입 (adversarial prompt injections)에 대한 안전성을 강화하며, 더 큰 모델들과 함께 강력한 스케일링 시너지 (scaling synergy)를 보여줍니다. 코드는 https://github.com/nxcolelxu/IHDec.git 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기