LLM의 지시 계층 구조 강화: 안전성과 견고성 향상 방안
요약
최신 대규모 언어 모델(LLM)은 시스템 메시지, 개발자 가이드, 사용자 요청 등 여러 출처의 지시를 동시에 받습니다. 이 중 어떤 지시가 가장 신뢰할 수 있는지 우선순위를 결정하는 '지시 계층 구조(instruction hierarchy)'는 LLM 안전 배포의 핵심입니다. OpenAI는 이러한 충돌 상황을 해결하기 위해 시스템 > 개발자 > 사용자 > 도구 순서로 명확한 계층 구조를 확립하고, 이를 강화학습 (Reinforcement Learning) 기반의 새로운 데이터셋 'IH-Challenge'로 학습시켰습니다. IH-C는
핵심 포인트
- LLM은 여러 출처의 지시(시스템, 사용자 등)가 충돌할 때 신뢰도에 따라 우선순위를 결정해야 합니다.
- OpenAI는 시스템 > 개발자 > 사용자 > 도구 순서로 명확한 지시 계층 구조를 모델에 적용합니다.
- 새로운 데이터셋 'IH-Challenge'는 단순하고 객관적으로 평가 가능하며, 과도한 거절(overrefusal)을 방지하도록 설계되었습니다.
- IH-Challenge 학습을 통해 개발된 모델은 안전성 제어 능력과 프롬프트 주입 공격에 대한 견고성이 크게 향상됩니다.
최신 대규모 언어 모델(LLM)이 실무 환경에서 안전하게 작동하려면, 여러 출처의 지시를 정확히 처리하는 능력이 필수적입니다. AI 시스템은 시스템 메시지 같은 정책부터 사용자 요청, 온라인 데이터까지 다양한 곳에서 지침을 받기 때문에, 이들 중 가장 신뢰할 수 있는 지시를 우선순위로 두는 것이 중요합니다.
이러한 '지시 계층 구조(instruction hierarchy)'가 무너지면 모델은 금지된 콘텐츠 생성이나 개인 정보 유출 시도 등 심각한 안전 문제를 일으킬 수 있습니다. 따라서 OpenAI는 시스템 > 개발자 > 사용자 > 도구 순으로 명확하게 지시의 우선순위를 설정하고, 이 원칙을 준수하도록 모델을 훈련합니다.
OpenAI가 새롭게 선보인 'IH-Challenge' 데이터셋은 이러한 계층 구조를 강화하기 위해 설계되었습니다. 기존 학습 방식의 문제점(복잡성으로 인한 실패, 주관적인 평가, 과도한 거절 등)을 해결하고자, IH-C는 단순하고 객관적으로 측정 가능한 방식으로 지시 충돌 상황을 제시합니다.
IH-Challenge는 고위 임무 역할에서 오는 지시와 이를 위반하려는 저위 임무 역할을 결합하여 모델의 응답을 유도합니다. 이 데이터를 통해 학습된 모델은 단순히 안전한 답변을 하는 것을 넘어, 구조적인 지시 충돌 상황에서도 높은 수준의 추론적 안정성을 보여주며 실질적인 안전성 향상을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 OpenAI Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기