OpenSafeIntent: 이중 용도 프롬프트 세트를 통한 의도 교정된 안전한 완성(Intent-Calibrated Safe

안전한 완성(Safe completion)은 모델이 해를 끼치지 않으면서도 유용한 도움을 제공할 것을 요구하지만, 이러한 동작은 개별적인 프롬프트만으로는 평가하기 어렵습니다. 우리는 근본적인 작업(task)은 고정된 채 의도(intent)만 변화시키는 통제된 프롬프트 세트 벤치마크인 OpenSafeIntent를 소개합니다. 각 데이터 포인트는 동일한 작업에 대한 선한(benign), 이중 용도(dual-use), 그리고 악의적인(malicious) 변형을 포함합니다. 이러한 설계는 모델이 단순히 평균적으로 안전해 보이는 것을 넘어, 의도 변화에 따라 도움의 정도를 교정(calibrate)하는지 평가할 수 있게 해줍니다. 광범위한 모델 제품군을 대상으로 조사한 결과, 프롬프트 수준의 안전성 평가는 중요한 실패 사례들을 숨기고 있음을 발견했습니다. 모델은 일치하는 의도 변형들 사이에서 안전성을 유지하는 데 자주 실패하며, 이중 용도(dual-use) 동작은 패러프레이징(paraphrase) 하에서 취약하고, 위험한 주제에 대한 고수준의 답변은 신뢰할 수 있을 만큼 안전하지 않으며, 모호한 요청을 더 안전한 작업으로 재구성(reframe)하는 응답은 안전 경계를 넘을 가능성이 실질적으로 낮습니다. 우리의 결과는 안전한 완성이 독립적인 프롬프트들에 대한 단일한 안전성-유용성 트레이드오프(safety-helpfulness tradeoff)가 아니라, 통제된 작업 변형들에 대한 의도 교정된(intent-calibrated) 동작으로서 평가되어야 함을 시사합니다.

Insights

OpenSafeIntent: 이중 용도 프롬프트 세트를 통한 의도 교정된 안전한 완성(Intent-Calibrated Safe

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실