arXiv논문2026. 06. 09. 13:48

PsychoSafe: 대규모 언어 모델(LLM)에서 심리학적 근거를 바탕으로 한 거절 유도

요약

PsychoSafe는 LLM이 고위험 요청을 거절할 때 심리학적 근거를 바탕으로 지원적 의사소통을 수행하도록 설계된 프레임워크입니다. Qwen 3.5 27B 모델에 프롬프팅과 미세 조정을 적용하여 거절의 품질과 외부 리소스 참조 능력을 크게 향상시켰습니다.

핵심 포인트

심리학적 개입 전략을 통한 구조화된 거절 프레임워크 제안
프롬프팅 적용 시 거절 품질 28.1% 향상 및 리소스 참조율 급증
미세 조정 시 거절 성능은 높으나 응답 관련성이 감소하는 트레이드오프 발생
도메인 내 강건성은 높으나 도메인 외 일반화 능력 개선 필요

대규모 언어 모델(LLMs)은 일상적으로 거절해야 하는 요청에 직면하며, 이는 유용성(helpfulness)과 위해 방지(harm prevention) 사이의 트레이드오프(trade-off)를 발생시킵니다. 그러나 거절 그 자체도 도움이 될 수 있습니다. 위기, 강요 또는 고조되는 의도가 포함된 고위험 상호작용에서, 무미건조한 불이행(non-compliance)은 직접적인 위해는 방지할 수 있으나 요청자 뒤에 있는 사람의 필요를 지원하는 데는 실패할 수 있습니다. 우리는 거절을 증거 기반 개입 전략(evidence-based intervention strategies)에 근거한 구조화된 지원적 의사소통으로 재구성하는 심리학적 정보 기반 거절 프레임워크인 PsychoSafe를 제시합니다. PsychoSafe를 개발하기 위해, 우리는 심리학적으로 중요한 5가지 위험 영역에 걸친 8,019개의 프롬프트-응답 쌍 코퍼스(corpus)를 구축하고, Qwen 3.5 27B에 프롬프팅(prompting) 및 매개변수 효율적 미세 조정(parameter-efficient fine-tuning)을 적용했습니다. LLM 판사(LLM judge)로 평가하고 인간의 평가를 통해 검증된 500개의 프롬프트로 구성된 균형 잡힌 검증 세트에서, PsychoSafe 프롬프팅은 일반적인 베이스라인(baseline) 대비 전반적인 거절 품질을 28.1% 향상시켰으며, 특히 외부 리소스 참조(+46.8%)와 심리학적 근거 제시(+34.8%)에서 강력한 이득을 보였으며, 거절하지 않는 작업에서의 다운스트림 성능(downstream performance)은 유지했습니다. 미세 조정(Fine-tuning)은 거의 완벽한 거절 및 리소스 참조율을 달성했지만 응답 관련성(relevance)을 감소시켰습니다. SORRY-Bench 및 XSTest에 대한 추가 평가는 강력한 도메인 내 강건성(in-domain robustness)을 보여주었으나 제한적인 도메인 외 일반화(out-of-domain generalization)를 보여주었으며, 이는 향후 연구가 모델이 개입을 도식적(schematically)으로 적용하기보다 선택적으로 적용할 수 있도록 미세 조정 데이터를 다양화해야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PsychoSafe: 대규모 언어 모델(LLM)에서 심리학적 근거를 바탕으로 한 거절 유도

요약

핵심 포인트

댓글