가소성과 메타인지(Metacognition)를 위한 신호로서의 놀라움(Surprise)

우리는 두 가지 설정에 걸쳐 하나의 아이디어를 연구합니다: 즉, 고정된 인코더(frozen encoder)의 잠재 공간(latent space)에 대해 작은 예측기(predictor)가 계산한 예측 오차(prediction-error) 신호가 가소성(plasticity)의 게이트(gate)이자 메타인지(metacognition)의 기질(substrate)로 모두 기능할 수 있다는 점입니다. 첫 번째 시스템에서는 비매개변수적 에피소드 기억(non-parametric episodic memory)이 이 놀라움(surprise)이 높을 때만 새로운 개념을 기록하며, 주기적인 오프라인 재생(offline replay) 단계가 최근의 흔적들을 느린 선형 판독(slow linear readout)으로 통합(consolidate)합니다. 고정된 DINOv2 또는 I-JEPA 백본(backbone)을 사용하여 1,000개의 ImageNet 클래스가 포함된 연속적인 스트림을 처리했을 때, 통합 단계는 DINOv2의 경우 가장 오래된 클래스에 대해 17.7포인트, I-JEPA의 경우 51.3포인트의 유지(retention) 성능을 회복했습니다(단일 시드 실행). 또한 절제 연구(ablation)를 통해 최근의 윈도우(window)만 재생하는 것이 재생을 전혀 하지 않는 것보다 성능이 낮음을 보여주었습니다. 퓨샷(few-shot) 평가에서 동일한 메모리는 5-way 1-shot mini-ImageNet에서 태스크별 베이스라인(task-specific baseline)보다 높은 91.6%에 도달했으나, 더 어려운 500-way 환경에서는 실제적인 어려움이 드러났습니다. 두 번째 시스템에서는 공유된 텍스트-이미지 공간에서 계산된 동일한 놀라움(surprise) 신호가 시각-언어 모델(vision-language model)의 행동을 조절합니다: 모델은 개념을 알고 있을 때는 확신 있게 대답하고, 부분적으로 익숙할 때는 모호하게 답변하며, 개념이 생소할 때는 객체 식별을 거부하고 설명을 요청하며 단 한 번의 사용자 발화로부터 개념을 학습합니다. 외부 탐지기(external detector)는 알려진 개념과 새로운 개념을 0.966의 AUROC(95% CI +/-0.024)로 구분해냈는데, 이는 모델 자체의 언어화된 신뢰도(0.618)보다 훨씬 높으며, 탐욕적 디코딩(greedy decoding) 하에서의 토큰 수준 신뢰도는 확률(chance) 미만입니다. 빠른 저장소(fast store)를 비우는 수면 단계(sleep phase) 이후, 시스템은 통합된 저장소로부터 학습된 50개 사실 중 99.2%를 회상하는 반면, 베이스 모델(base model)은 하나도 회상하지 못합니다. 우리는 명시적인 한계점과 함께 두 시스템을 개념 증명(proof-of-concept)으로 보고하며, 두 번째 시스템을 최근의 에피소드 기억(episodic-memory) 및 개인화된 VLM 연구와 비교하여 위치시킵니다.

Insights

가소성과 메타인지(Metacognition)를 위한 신호로서의 놀라움(Surprise)

요약

핵심 포인트

댓글

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

지능의 창조: AGI를 위한 계산적 토대

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

지능의 창조: AGI를 위한 계산적 토대