사회적 상호작용 에이전트의 신뢰 보정(Trust Calibration)을 향하여: LLM을 이용한 성별화된 멀티모달 행동 생성 연구

사회적 상호작용 에이전트 (Socially Interactive Agents, SIAs)가 일상생활에 점점 더 통합됨에 따라, 에이전트의 실제 능력에 맞춰 사용자의 신뢰를 보정 (calibrate)하는 능력은 이러한 에이전트의 적절한 사용을 보장하는 데 도움이 될 것입니다. 본 논문에서는 신뢰성 (trustworthiness)의 두 가지 핵심 차원인 능력 (ability)과 선의 (benevolence)의 다양한 수준을 반영하는 멀티모달 행동 (multimodal behaviors; 언어적, 음성적, 몸짓 및 얼굴 표정 양식)을 생성하는 거대 언어 모델 (Large Language Models, LLMs)의 역량을 탐구합니다. 우리는 이러한 특성의 특정 수준과 일치하는 행동을 자동으로 생성하기 위한 새로운 방법을 제안하며, 이는 미묘하고 신뢰가 보정된 상호작용을 가능하게 하기 위한 첫 번째 단계입니다. LLM에 의해 생성된 멀티모달 전사 데이터 (multimodal transcripts)의 대규모 데이터셋을 분석함으로써, 우리는 GPT-5.4가 서로 다른 양식 (텍스트, 억양, 얼굴 표정 및 몸짓)에 걸쳐 일관된 행동을 생성할 수 있음을 입증합니다. 랜덤 포레스트 (Random Forest) 특성 중요도 분석을 사용하여, 생성된 행동이 능력 및 선의에 대한 이론적 기대치와 일치함을 보여줍니다. 그러나 프롬프트 (prompt)에 성별이 지정될 경우, LLM이 사회적 성 고정관념을 재현하는 경향이 있어 남성 에이전트의 행동은 높은 능력과, 여성 에이전트의 행동은 높은 선의와 연관시키는 것을 발견했습니다. 우리의 접근 방식을 검증하기 위해, 우리는 피험자 내 설계 (within-subjects design)를 사용하여 Prolific에서 사용자 연구를 수행했습니다. 참가자들은 생성된 행동에서 의도된 지침과 일치하는 다양한 수준의 능력과 선의를 인지했습니다.

Insights

사회적 상호작용 에이전트의 신뢰 보정(Trust Calibration)을 향하여: LLM을 이용한 성별화된 멀티모달 행동 생성 연구

요약

핵심 포인트

댓글

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.