arXiv논문2026. 06. 19. 12:09

안전 정렬된 LLM은 혼합된 준수 데모(Compliance Demonstrations)로부터 무엇을 배우는가?

요약

본 연구는 인컨텍스트 데모의 구성이 LLM의 유해한 준수(harmful compliance)에 미치는 영향을 분석합니다. 양호한 데모와 유해한 데모가 서로 교체 불가능하며, 데모의 내용, 순서, 모델의 학습 방법론에 따라 탈옥 메커니즘이 다르게 작동함을 규명합니다.

핵심 포인트

양호한 데모가 모델에 따라 유해한 준수를 오히려 증가시킬 수 있음
선호도 최적화(Preference Optimization)가 유해 준수 방지에 결정적 역할 수행
데모의 순서가 모델의 최신성 편향(Recency Bias)에 큰 영향을 미침
모델마다 거절(Refusal)과 인컨텍스트 학습이 상호작용하는 방식이 상이함

이전 연구들은 인컨텍스트 데모(in-context demonstrations)가 언어 모델을 탈옥(jailbreak)시킬 수 있음을 보여주었으나, 모델이 서로 다른 유형의 준수 데모(compliance demonstrations)를 어떻게 해석하는지는 여전히 불분명합니다. 본 연구에서는 양호한 준수 데모(benign compliance demonstrations; 해롭지 않은 요청, 도움이 되는 응답)와 유해한 준수 데모(harmful compliance demonstrations; 해로운 요청, 도움이 되는 응답)를 혼합하고, 데모 구성이 유해한 준수를 유도하는 방식에 관한 세 가지 가설을 테스트함으로써 이를 연구합니다. 4개의 모델을 대상으로 실험한 결과, 양호한 데모와 유해한 데모는 서로 교체 가능하지 않음을 발견했습니다. 즉, 양호한 데모는 모델에 따라 유해한 준수를 감소시키거나 오히려 증가시킬 수 있습니다. 나아가 우리는 선호도 최적화(preference optimization)가 양호한 데모가 유해한 준수를 증가시키는 것을 방지하는 결정적인 학습 단계임을 보여주며, 데모 순서가 강력한 최신성 편향(recency bias)을 나타낸다는 점과, 거절(refusal)이 인컨텍스트 학습(in-context learning)과 상호작용하는 방식이 모델마다 다르다는 점을 보여줍니다. 즉, 어떤 모델은 거절할 때조차 데모된 형식을 채택하는 반면, 다른 모델은 거절 시 모든 인컨텍스트 신호를 무시합니다. 종합적으로, 본 연구는 데모 기반의 탈옥이 작동한다는 것을 보여주는 수준을 넘어, 그것이 어떻게 작동하는지를 규명합니다. 즉, 모델이 준수 데모로부터 추출하는 것은 데모의 내용, 순서, 그리고 학습 방법론에 따라 달라집니다.

AI 자동 생성 콘텐츠

원문 바로가기

안전 정렬된 LLM은 혼합된 준수 데모(Compliance Demonstrations)로부터 무엇을 배우는가?

요약

핵심 포인트

댓글