arXiv논문2026. 05. 12. 00:23

플레이할 이유: 최신 LRM과 인간 게임 학습 간의 행동 및 뇌 정렬

요약

본 연구는 참가자들이 새로운 비디오 게임을 플레이하는 동안의 fMRI 데이터를 활용하여, 최신 대규모 추론 모델(LRMs)이 인간의 학습 및 의사 결정 과정을 얼마나 잘 모방할 수 있는지 탐구했습니다. 연구진은 LRM의 게임 플레이 능력, 인간 행동 일치도, 그리고 뇌 활동 예측 능력을 종합적으로 평가했으며, 이를 기존 강화학습 에이전트 및 베이지안 이론 기반 모델과 비교했습니다. 그 결과, 최신 LRM들이 게임 발견 과정에서 인간의 행동 패턴과 가장 유사하게 나타났으며, 특히 대뇌 및 피하피질 영역 전반에 걸쳐 기존 RL 대체 모델보다 우수한 뇌 활동 예측 능력을 보였습니다. 또한, 이러한 '뇌 정렬(brain alignment)'은 다운스트림 계획보다는 게임 상태에 대한 인컨텍스트 표현을 반영함을 입증했습니다.

핵심 포인트

최신 LRM들은 복잡한 비디오 게임 환경에서 인간의 학습 및 의사 결정 패턴과 높은 유사성을 보임.
LRM은 기존 강화학습 모델보다 우수한 뇌 활동 예측 능력을 갖추어, 인간의 인지 과정을 더 잘 모방함.
이러한 '뇌 정렬' 현상은 단순히 계획 능력보다는 게임 상태에 대한 컨텍스트적 표현(in-context representation)을 반영하는 것으로 분석됨.
본 연구는 LRM이 복잡하고 자연스러운 환경에서의 인간 학습 및 의사 결정 과정에 대한 강력한 계산적 설명임을 제시함.

인간은 새로운 환경에 직면했을 때 추상적인 지식을 빠르게 습득하며, 이 지식을 유연하게 활용하여 효율적이고 지능적인 행동을 안내합니다. 현대 AI 시스템도 유사한 방식으로 학습하고 계획할 수 있을까요? 우리는 규칙 발견, 가설 수정, 다단계 계획이 필요한 새로운 비디오 게임을 플레이하는 참가자들의 동시 fMRI 기록 데이터셋을 사용하여 이 질문을 연구했습니다. 우리는 최신 대규모 추론 모델(LRMs)의 한계를 평가하기 위해, 게임 플레이 능력, 인간 학습 행동 일치도, 그리고 동일한 과제 수행 중 뇌 활동 예측 능력을 종합적으로 평가했으며, 이를 모델 프리 및 모델 기반 심층 강화학습 에이전트와 베이지안 이론 기반 에이전트와 비교했습니다. 우리는 최신 LRM들이 게임 발견 과정에서 인간의 행동 패턴과 가장 가깝게 일치하며, 피어뮤테이션 제어(permutation controls)에 강건한 효과를 보이며, 대뇌 및 피하피질 영역 전반에 걸쳐 강화학습 대체 모델들보다 한 자릿수 더 나은 뇌 활동 예측 능력을 갖는다는 것을 발견했습니다. 표적 조작을 통해 우리는 또한 뇌 정렬이 다운스트림 계획이나 추론보다는 게임 상태에 대한 모델의 인컨텍스트 표현(in-context representation)을 반영한다는 것을 보여줍니다. 우리의 결과는 LRMs가 복잡하고 자연스러운 환경에서의 인간 학습 및 의사 결정에 대한 설득력 있는 계산적 설명임을 확립합니다. 인터랙티브 리플레이가 포함된 프로젝트 페이지: https://botcs.github.io/reason-to-play/

AI 자동 생성 콘텐츠

원문 바로가기

플레이할 이유: 최신 LRM과 인간 게임 학습 간의 행동 및 뇌 정렬

요약

핵심 포인트

댓글