본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:14

GenPT: 생성적 투사 검사를 통한 신뢰할 수 있는 LLM 심리 측정의 자기 보고 방식 초월

요약

기존 자기 보고식 설문지의 오염 및 편향 문제를 해결하기 위해 투사 패러다임을 활용한 GenPT 프레임워크를 제안합니다. GenPT는 생성적 자극을 통해 LLM 에이전트의 심리 상태를 보다 신뢰성 있게 측정하며, 기존 방식보다 높은 타당도를 보여줍니다.

핵심 포인트

  • 기존 설문 방식의 학습 데이터 오염 및 사회적 바람직성 편향 문제 지적
  • TAT, Rorschach 등 투사 검사를 재구성한 3단계 GenPT 파이프라인 제안
  • GenPT가 기존 설문지 대비 높은 신뢰도와 타당도를 가짐을 벤치마킹
  • 자살 충동 및 우울증 평가 등 민감한 시나리오에서 GenPT의 우수성 입증

자기 보고식 설문지(Self-report questionnaires)는 페르소나 조건부 에이전트(Persona-conditioned agents, PC-Agents)의 심리 상태를 조사하는 데 여전히 지배적인 도구로 남아 있습니다. 그러나 전통적인 도구들은 두 가지 잘 알려진 위협 요소를 물려받았습니다: 학습 코퍼스(Training corpora)로부터의 오염(Contamination)과 사회적 바람직성(Social-desirability) 또는 맥락적 프레이밍(Contextual framing)에 의해 유발되는 방향성 편향(Directional bias)입니다. 이러한 방법론적 병목 현상을 극복하기 위해, 우리는 투사 패러다임(Projective paradigms)이 강력한 심리 측정 도구로 적응될 수 있는지 질문합니다. 우리는 TAT, Rorschach, SCT를 새롭게 생성된 자극(Stimuli)으로 재구성하고, 표준화된 심리 지표와 목표 상태를 도출하기 위해 평가를 3단계 파이프라인으로 구성한 extbf{GenPT} (Generative Projective Testing)를 소개합니다. CharacterRAG 및 AnnaAgent 프로필을 통해 유도된 PC-Agents를 평가하며, 우리는 고전적인 설문지와 비교하여 GenPT의 신뢰도(Reliability)와 타당도(Validity)를 벤치마킹합니다. 결과에 따르면, 설문지는 사회적 바람직성 프레이밍 하에서 체계적인 방향성 변화를 보이며, 특히 자살 충동(Suicide ideation)에서 가장 강력하게 나타납니다. 반면, GenPT가 수집한 행동 패턴은 대칭적 기준선(Symmetric baseline) 근처에 머뭅니다. 또한, 종단적 상담(Longitudinal counselling) 맥락에서 Qwen3가 백본(Backbone)으로 사용될 때, GenPT 기반의 우울증 평가는 설문지 대응 방식보다 대략 한 자릿수(An order of magnitude) 더 크게 변화합니다. 종합적으로, GenPT는 오염 저항성, 편향 비대칭성(Bias asymmetry), 그리고 맥락 민감성(Context sensitivity)이 중요한 시나리오에서 자기 보고 방식을 보완합니다. 코드와 자극은 https://github.com/sci-m-wang/GenPT 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0