대규모 언어 모델(LLM)의 외견상 심리적 프로필은 상당 부분 측정의 인위적 결과물이다
요약
LLM의 심리적 프로필이 모델의 실제 특성이 아닌, 측정 도구의 인위적 결과물(measurement artifact)임을 밝힌 연구입니다. 모델 간 차이의 대부분은 성격 특성이 아닌 응답 편향에 기인하며, 기존 심리 측정 도구의 타당성 문제를 지적합니다.
핵심 포인트
- LLM 간 변동의 81-90%는 성격 특성이 아닌 응답 편향에 기인함
- 모델의 능력이 높아져도 응답 편향은 완전히 제거되지 않음
- 기존 인간용 심리 측정 도구는 LLM 평가에 타당성이 부족할 수 있음
- 응답 직교성(response orthogonality)을 고려한 전용 평가 체계 필요
인간을 위해 설계된 심리 측정 도구들이 대규모 언어 모델(LLMs)의 사용성, 안전성 평가, 그리고 연구에서 인간 참가자의 대리인(proxies)으로서의 활용에 영향을 미치는 안정적인 심리적 프로필을 부여하는 데 점점 더 많이 사용되고 있습니다. 우리는 공식적인 심리 측정(psychometric) 프레임워크를 사용하여, 이러한 프로필들이 상당 부분 측정의 인위적 결과물(measurement artifact)임을 보여줍니다. 자기 보고(self-reports) 및 행동 과제(behavioral tasks)를 아우르는 일련의 성격 및 위험 선호도 측정 도구를 56개의 지시어 튜닝된(instruction-tuned) LLMs와 대규모 인간 참조 샘플에 함께 적용하여, 네 가지 연구 결과를 보고합니다. 첫째, 모델 간의 차이는 측정 도구가 목표로 하는 특성(traits)이 아니라 방향성 응답 편향(directional response bias), 즉 문항 내용과 관계없이 척도의 한쪽 끝이나 특정 라벨링된 옵션으로 응답하려는 경향에 의해 발생합니다. 분산 분해(variance decomposition) 결과, 모델 간 변동의 81-90%가 이 편향에 기인하는 반면, 인간의 경우 9-16%에 불과했습니다. 둘째, 이러한 편향은 모델의 능력(capability)이 높아짐에 따라 감소하지만, 능력에 의해 완전히 제거되지는 않습니다. 셋째, 특성이 아닌 편향이 응답을 유도하기 때문에, 측정 도구의 외견상 신뢰도(reliability)는 거의 전적으로 응답 직교성(response orthogonality)에 의해 예측됩니다. 여기서 직교성(orthogonality)은 우리가 새로 만든 용어로, 특성과 편향이 서로 반대 방향을 가리키는 문항의 비율을 의미합니다. 넷째, 모델이 나타내는 프로필은 사용된 문항에 따라 변하며, 문항 선택을 통해 인위적으로 만들어질 수 있습니다. 이러한 결과는 LLM의 외견상 심리적 프로필이 모델 자체의 속성이 아니라, 모델을 측정하는 데 사용된 도구의 인위적 결과물임을 입증합니다. 인간 심리학에서 빌려온 도구들은 완전히 직교하는 경우가 드물며 LLM에 대해 본질적으로 타당성(validity)이 부족할 수 있으므로, 우리는 응답 직교성(response orthogonality)에 중점을 둔 전용 평가를 촉구합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기