본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 13:48

PsychoSafe: 대규모 언어 모델(LLM)에서 심리학적 근거를 바탕으로 한 거절 유도

요약

PsychoSafe는 LLM이 고위험 요청을 거절할 때 심리학적 근거를 바탕으로 지원적 의사소통을 수행하도록 설계된 프레임워크입니다. Qwen 3.5 27B 모델에 프롬프팅과 미세 조정을 적용하여 거절의 품질과 외부 리소스 참조 능력을 크게 향상시켰습니다.

핵심 포인트

  • 심리학적 개입 전략을 통한 구조화된 거절 프레임워크 제안
  • 프롬프팅 적용 시 거절 품질 28.1% 향상 및 리소스 참조율 급증
  • 미세 조정 시 거절 성능은 높으나 응답 관련성이 감소하는 트레이드오프 발생
  • 도메인 내 강건성은 높으나 도메인 외 일반화 능력 개선 필요

대규모 언어 모델(LLMs)은 일상적으로 거절해야 하는 요청에 직면하며, 이는 유용성(helpfulness)과 위해 방지(harm prevention) 사이의 트레이드오프(trade-off)를 발생시킵니다. 그러나 거절 그 자체도 도움이 될 수 있습니다. 위기, 강요 또는 고조되는 의도가 포함된 고위험 상호작용에서, 무미건조한 불이행(non-compliance)은 직접적인 위해는 방지할 수 있으나 요청자 뒤에 있는 사람의 필요를 지원하는 데는 실패할 수 있습니다. 우리는 거절을 증거 기반 개입 전략(evidence-based intervention strategies)에 근거한 구조화된 지원적 의사소통으로 재구성하는 심리학적 정보 기반 거절 프레임워크인 PsychoSafe를 제시합니다. PsychoSafe를 개발하기 위해, 우리는 심리학적으로 중요한 5가지 위험 영역에 걸친 8,019개의 프롬프트-응답 쌍 코퍼스(corpus)를 구축하고, Qwen 3.5 27B에 프롬프팅(prompting) 및 매개변수 효율적 미세 조정(parameter-efficient fine-tuning)을 적용했습니다. LLM 판사(LLM judge)로 평가하고 인간의 평가를 통해 검증된 500개의 프롬프트로 구성된 균형 잡힌 검증 세트에서, PsychoSafe 프롬프팅은 일반적인 베이스라인(baseline) 대비 전반적인 거절 품질을 28.1% 향상시켰으며, 특히 외부 리소스 참조(+46.8%)와 심리학적 근거 제시(+34.8%)에서 강력한 이득을 보였으며, 거절하지 않는 작업에서의 다운스트림 성능(downstream performance)은 유지했습니다. 미세 조정(Fine-tuning)은 거의 완벽한 거절 및 리소스 참조율을 달성했지만 응답 관련성(relevance)을 감소시켰습니다. SORRY-Bench 및 XSTest에 대한 추가 평가는 강력한 도메인 내 강건성(in-domain robustness)을 보여주었으나 제한적인 도메인 외 일반화(out-of-domain generalization)를 보여주었으며, 이는 향후 연구가 모델이 개입을 도식적(schematically)으로 적용하기보다 선택적으로 적용할 수 있도록 미세 조정 데이터를 다양화해야 함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0