arXiv논문2026. 05. 11. 23:57

사후 훈련은 대규모 언어 모델을 인간과 유사하지 않게 만든다

요약

본 논문은 대규모 언어 모델(LLMs)이 인간의 행동을 얼마나 잘 모방하는지 측정할 수 있는 새로운 데이터셋 Psych-201을 소개한다. 연구 결과, LLM을 유용한 비서로 만들기 위해 수행되는 사후 훈련 과정 자체가 모델의 인간 행동 정렬도를 지속적으로 떨어뜨리는 것으로 나타났다. 또한, 개인별 정보로 모델을 조건화하는 페르소나 유도 기법 역시 개인 수준의 예측 정확도를 개선하지 못한다는 사실이 밝혀졌다.

핵심 포인트

새로운 데이터셋 Psych-201을 통해 LLM의 행동 정렬(behavioral alignment) 측정 가능
사후 훈련(post-training) 과정은 모델의 인간 행동과의 정렬도를 지속적으로 감소시킨다.
이러한 불일치(misalignment) 현상은 새로운 세대의 모델에서 더욱 심화된다.
페르소나 유도(persona-induction) 기술은 개인 수준의 예측 정확도를 개선하지 못한다.

대규모 언어 모델(LLMs)이 인간 참가자의 대리인으로 점점 더 많이 사용되고 있지만, 어떤 모델이 인간 행동을 가장 잘 포착하는지 그리고 그 이유가 무엇인지는 여전히 불분명합니다. 이에 대응하여, 우리는 규모에서 행동 정렬(behavioral alignment)을 측정할 수 있게 해주는 새로운 데이터셋 Psych-201을 소개합니다. 우리는 사후 훈련(post-training) — 기본 모델을 유용한 비서로 전환하는 단계 — 이 모델 계열, 크기 및 목표 전반에 걸쳐 인간 행동과의 정렬도를 지속적으로 감소시킨다는 것을 발견했습니다. 더욱이, 이러한 불일치(misalignment)는 기본 모델이 계속 개선되는 와중에도 더 새로운 모델 세대에서 확대됩니다. 마지막으로, 참가자별 정보로 모델을 조건화하여 인간과 유사한 행동을 유도하는 인기 있는 기술인 페르소나 유도(persona-induction)가 개인 수준의 예측을 개선하지 못한다는 것을 발견했습니다. 종합적으로 볼 때, 우리의 결과는 현재 LLMs를 유용한 비서로 전환하기 위해 사용되는 바로 그 과정들이 이 모델들을 인간 행동에 대한 덜 정확한 모델로 만든다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

사후 훈련은 대규모 언어 모델을 인간과 유사하지 않게 만든다

요약

핵심 포인트

댓글