OpenSafeIntent: 이중 용도 프롬프트 세트를 통한 의도 교정된 안전한 완성(Intent-Calibrated Safe
요약
모델의 안전한 완성을 평가하기 위해 의도(intent)만을 변화시키는 통제된 프롬프트 벤치마크인 OpenSafeIntent를 제안합니다. 기존의 단일 프롬프트 평가 방식이 가진 한계를 지적하며, 의도 변화에 따른 모델의 안전성 교정 능력을 측정하는 것이 중요함을 강조합니다.
핵심 포인트
- OpenSafeIntent: 선한, 이중 용도, 악의적 의도를 포함한 통제된 프롬프트 세트 벤치마크
- 기존 프롬프트 수준의 안전성 평가는 모델의 취약점을 숨길 수 있음
- 모델이 의도 변화에 따라 안전성과 유용성을 적절히 교정하는지 평가 필요
- 이중 용도 동작 및 패러프레이징 상황에서의 안전성 취약점 발견
안전한 완성(Safe completion)은 모델이 해를 끼치지 않으면서도 유용한 도움을 제공할 것을 요구하지만, 이러한 동작은 개별적인 프롬프트만으로는 평가하기 어렵습니다. 우리는 근본적인 작업(task)은 고정된 채 의도(intent)만 변화시키는 통제된 프롬프트 세트 벤치마크인 OpenSafeIntent를 소개합니다. 각 데이터 포인트는 동일한 작업에 대한 선한(benign), 이중 용도(dual-use), 그리고 악의적인(malicious) 변형을 포함합니다. 이러한 설계는 모델이 단순히 평균적으로 안전해 보이는 것을 넘어, 의도 변화에 따라 도움의 정도를 교정(calibrate)하는지 평가할 수 있게 해줍니다. 광범위한 모델 제품군을 대상으로 조사한 결과, 프롬프트 수준의 안전성 평가는 중요한 실패 사례들을 숨기고 있음을 발견했습니다. 모델은 일치하는 의도 변형들 사이에서 안전성을 유지하는 데 자주 실패하며, 이중 용도(dual-use) 동작은 패러프레이징(paraphrase) 하에서 취약하고, 위험한 주제에 대한 고수준의 답변은 신뢰할 수 있을 만큼 안전하지 않으며, 모호한 요청을 더 안전한 작업으로 재구성(reframe)하는 응답은 안전 경계를 넘을 가능성이 실질적으로 낮습니다. 우리의 결과는 안전한 완성이 독립적인 프롬프트들에 대한 단일한 안전성-유용성 트레이드오프(safety-helpfulness tradeoff)가 아니라, 통제된 작업 변형들에 대한 의도 교정된(intent-calibrated) 동작으로서 평가되어야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기