샘플링되지 않은 진실: SLM의 심리측정학은 심리적 구성 개념이 아닌 프롬프트 아티팩트를 측정한다
요약
SLM(소형 언어 모델)의 심리측정 평가 시 모델의 출력이 실제 추론 능력이 아닌 프롬프트 구성 요소에 의한 아티팩트를 측정할 위험이 있음을 밝힙니다. 연구팀은 프롬프트 변형 프레임워크를 통해 모델이 심리적 특성보다 프롬프트 준수 여부에 더 크게 반응함을 증명했습니다.
핵심 포인트
- SLM의 심리측정 결과가 프롬프트 아티팩트에 의해 왜곡될 수 있음
- 페르소나, 지시 사항 등 프롬프트 변형이 결과에 큰 영향을 미침
- 모델이 심리적 특성보다 프롬프트 준수 능력을 우선 반영함
- 의미론적 신호와 아티팩트를 분리하는 진단 프레임워크 제안
심리측정 평가를 위해 SLM (Small Language Models)에 프롬프트를 제공할 때, 연구자들은 그 출력이 의미론적 추론 (semantic reasoning)을 반영한다고 가정합니다. 우리는 의미론적 신호 (semantic signals)를 프롬프트 아티팩트 (prompt artifacts)로부터 분리하는 프롬프트 변형 프레임워크를 사용하여 13개의 오픈 웨이트 (open-weights) 모델 (0.6B에서 14B 파라미터)에 걸쳐 이 전제를 평가합니다. 페르소나 (personas), 지시 사항 (instructions), 문항 (items), 그리고 선택지 기호 (option symbols)를 체계적으로 변화시킴으로써, 우리는 아티팩트 변동성 (artifactual variance)이 의미론적 신호를 빈번하게 압도한다는 것을 발견했습니다. 이러한 경우, 모델은 시뮬레이션된 심리적 특성 (psychological traits)보다는 주로 프롬프트 준수 (prompt compliance)를 반영합니다. 이러한 발견은 심리측정학에서 SLM의 유용성을 제한하지만, 우리의 프레임워크는 파괴적인 아티팩트를 식별하고 향후 프론티어 모델 (frontier-model) 연구를 위해 의미론적 이해를 격리할 수 있는 진단 도구를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기