X요약2026. 06. 18. 19:48

RNG-Bench: 최첨단 MLLM이 더 이상 보이지 않는 정보에 기반하여 행동할 수 있는지 테스트

요약

RNG-Bench는 최첨단 MLLM이 보이지 않는 정보를 기억만으로 재구성하여 행동할 수 있는지 테스트하는 벤치마크입니다. Matching Pairs와 3D Maze 환경을 통해 모델의 숨겨진 상태 재구성 능력을 평가합니다.

RNG-Bench는 최첨단 MLLM (Multimodal Large Language Models)이 더 이상 보이지 않는 정보에 기반하여 행동할 수 있는지 테스트합니다.

Matching Pairs와 3D Maze는 모델이 오직 기억만으로 숨겨진 상태 (hidden states)를 재구성하도록 강제합니다.

가장 어려운 설정은 에피소드당 128K 토큰과 350개의 이미지를 포함하며, 아직 성능이 포화 상태에 도달하기는 멀었습니다. https://t.co/MoQ0Fa4gEq
[IMG:1]

AI 자동 생성 콘텐츠