
RNG-Bench: 최첨단 MLLM이 더 이상 보이지 않는 정보에 기반하여 행동할 수 있는지 테스트
요약
RNG-Bench는 최첨단 MLLM이 보이지 않는 정보를 기억만으로 재구성하여 행동할 수 있는지 테스트하는 벤치마크입니다. Matching Pairs와 3D Maze 환경을 통해 모델의 숨겨진 상태 재구성 능력을 평가합니다.
핵심 포인트
- MLLM의 보이지 않는 정보 기반 행동 능력 테스트
- Matching Pairs 및 3D Maze를 통한 기억력 평가
- 에피소드당 최대 128K 토큰 및 350개 이미지 포함
- 현재 모델 성능이 아직 포화 상태에 도달하지 않음
RNG-Bench는 최첨단 MLLM (Multimodal Large Language Models)이 더 이상 보이지 않는 정보에 기반하여 행동할 수 있는지 테스트합니다.
Matching Pairs와 3D Maze는 모델이 오직 기억만으로 숨겨진 상태 (hidden states)를 재구성하도록 강제합니다.
가장 어려운 설정은 에피소드당 128K 토큰과 350개의 이미지를 포함하며, 아직 성능이 포화 상태에 도달하기는 멀었습니다. https://t.co/MoQ0Fa4gEq
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기