진정한 의도로 포장하다: 의도 인식 학습(Intent-Aware Training)을 통한 다양한 학습 체계에서의 LLM 안전성 분류 성능 향상
요약
사용자의 의도를 모델링하여 LLM 안전성 분류기의 성능을 높이는 '의도 인식 학습(Intent-Aware Training)' 방법론을 제안합니다. 새로운 데이터셋 AIMS를 통해 SFT, DPO, GRPO 등 다양한 학습 체계에서 의도 모델링의 효과를 입증했습니다.
핵심 포인트
- 사용자 의도를 명시적으로 모델링하는 AIMS 데이터셋 도입
- GRPO를 통한 의도 충실도 보상이 가장 강력한 안전성 성능 산출
- 의도 조건부 증류가 기존 추론 전용 증류보다 우수한 성능 기록
- 의도 인식 모델이 추론 지연 시간과 성능 간의 최적 파레토 프런티어 형성
우리는 안전성 분류기(safety classifiers)가 프롬프트(prompt)와 최종 레이블(label) 사이의 명시적인 신호로서 사용자의 의도(user intent)를 모델링해야 한다고 주장합니다. 이를 연구하기 위해, 우리는 1,724개의 까다로운 안전성 프롬프트로 구성된 인간 주석 데이터셋인 AIMS를 도입하며, 각 프롬프트는 의도 설명(intent description) 및 유해성 레이블(harm label)과 쌍을 이룹니다. 우리는 지도 미세 조정(Supervised Fine-Tuning, SFT), 선호도 학습(preference learning), 추론 증류(reasoning distillation), 그리고 강화 학습(reinforcement learning) 전반에 걸쳐 의도 인식 학습(intent-aware training)을 평가하기 위해 AIMS를 사용합니다. AIMS의 규모에도 불구하고, 이 데이터셋은 다양한 학습 체계에서 경쟁력 있는 안전성 분류기를 가능하게 합니다. 모델이 생성한 의도 오류(model-generated intent errors)로부터의 DPO는 SFT보다 개선된 성능을 보이며, 의도 조건부 증류(intent-conditioned distillation)는 대부분의 교사-학생(teacher-student) 쌍에서 추론 전용 증류(reasoning-only distillation)보다 뛰어난 성능을 나타냅니다. 가장 주목할 점은, GRPO를 통해 의도 충실도(intent faithfulness)에 직접적으로 보상을 주는 것이 5개의 외부 안전성 벤치마크에서 가장 강력한 평균 성능을 산출한다는 것이며, 우리의 의도 인식 모델들은 추론 지연 시간-F1(inference latency-F1) 파레토 프런티어(Pareto frontier)를 형성합니다. 이러한 결과는 충실한 의도 모델링이 더 견고한 안전성 분류기를 위한 컴팩트하고 고품질인 지도 신호(supervision signal)임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기