arXiv논문2026. 06. 30. 11:04

MIThinker: 동기 면담 (Motivational Interviewing) 상담을 위한 플러그 앤 플레이 방식의 정책 최적화 사고 모델

요약

동기 면담(MI) 상담 에이전트의 효과를 높이기 위해 치료적 사고 과정을 생성하는 경량 사고 모델 MIThinker를 제안합니다. AugR1-MI 파이프라인을 통해 상담사의 사고를 역설계하여 학습하며, 기존 모델 대비 적은 계산량으로도 뛰어난 상담 역량을 보여줍니다.

핵심 포인트

상담 기법과 사고 과정을 정렬하는 MIThinker 모델 제안
상담사 사고 역설계를 위한 자동화 파이프라인 AugR1-MI 도입
SFT와 RL을 결합한 2단계 학습으로 전략 정렬 능력 향상
기존 SOTA 시스템 대비 10배 적은 계산량으로 대등한 성능 달성

추론 거대 언어 모델 (Reasoning LLMs)은 최근 내부 추론(또는 사고)을 활용하여 솔루션 생성을 유도함으로써 복잡한 문제 해결 분야에서 많은 진전을 이루었습니다. 그러나 동기 면담 (Motivational Interviewing, MI)을 사용하는 에이전트를 포함하여 기존의 LLM 기반 상담 에이전트들은 사고를 상담 기법과 명시적으로 정렬하지 않은 채 응답을 생성하며, 이는 그 효과를 제한합니다. 우리는 MI 상담 에이전트의 전략 선택과 응답 생성을 안내하기 위해 치료적 사고를 생성하는 경량 사고 모델인 MIThinker를 제안합니다. 주석이 달린 사고 데이터의 부족을 극복하기 위해, 우리는 관찰된 응답으로부터 상담사의 사고를 역설계하는 자동화된 파이프라인인 AugR1-MI를 도입합니다. 지도 미세 조정 (Supervised Fine-Tuning, SFT)과 강화 학습 (Reinforcement Learning, RL)을 결합한 2단계 학습을 통해, MIThinker는 향상된 마음 이론 (Theory-of-Mind) 평가 및 전략 정렬 능력을 보여줍니다. 종합적인 평가 결과, MIThinker를 활용한 우리의 에이전트인 MindfulMI는 최첨단 (State-of-the-art) 시스템과 대등한 MI 역량을 달성하면서도 계산량은 10배(an order of magnitude) 적게 사용함을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MIThinker: 동기 면담 (Motivational Interviewing) 상담을 위한 플러그 앤 플레이 방식의 정책 최적화 사고 모델

요약

핵심 포인트

댓글