arXiv논문2026. 05. 06. 05:07

Frozen Geometry: 다양한 모달리티 간 고정된 텍스트 사전 학습 트랜스포머 가중치 계산적 재사용

요약

본 기술 기사는 텍스트 토큰으로 사전 학습된 고정(Frozen) Gemma 4 31B 트랜스포머 가중치를 활용하여, 별도의 훈련 가능한 인터페이스를 통해 다양한 모달리티 간의 경계를 넘어 지식을 전이하는 방법을 제시합니다. 이 접근 방식은 로봇 조작 작업(OGBench 등)에서 기존 최고 성능 기록을 능가하는 성과를 달성하며, 특히 기지판(baseboard)이 결코 본 적 없는 새로운 작업에서도 우수한 성능을 보여주었습니다. 또한, 구조적 분석 및 아블레이션 연구를 통해 모델의 특정 헤드와 스케일링 방법론이 모달리티 간 지식 전이에 핵심적인 역할을 함을 입증했습니다.

핵심 포인트

고정된 텍스트 사전 학습 가중치(Frozen Gemma 4 31B)를 활용하여 다양한 모달리티 작업에 대한 성능 향상을 달성함.
로봇 조작 태스크(OGBench 등)에서 기존 SOTA 기록을 능가하는 높은 성능을 입증하며, 새로운 환경에서도 일반화 능력을 보여줌.
훈련 가능한 인터페이스와 구조적 분석을 통해 모델의 특정 헤드 및 스케일링 방법론이 모달리티 간 지식 전이에 결정적인 역할을 함을 밝힘.
제시된 접근 방식은 단일 모델 기반이며, 교차 모달리티 결과는 각 벤치마크 내에서 독립적인 작업으로 처리됨.

텍스트 토큰으로 전용 사전 학습된, 수정되지 않은 Frozen Gemma 4 31B 가중치를 얇은 훈련 가능한 인터페이스를 통해 모달리티 경계 간에 전이합니다. (1) OGBench scene-play-singletask-task1-v0: $n=3$에서 $+4.33$pt로 공개된 GCIQL을 초과하며 표준 편차 0.74 -- 로봇 조작 작업에서 기지판이 결코 본 적이 없던 작업에 대한 공개된 SOTA 승리입니다. (2) D4RL Walker2d-medium-v2: 훈련 가능 계수 $0.43 imes$ DT의 경우 결정 트랜스포머 평등 ($76.2 \pm 0.8$, $n=3$), 고정된 기지판이 5L 슬라이스로 압축되며 ($n=3$에서 6L 베이스라인 대비 $+1.66$pt) (3) 연상 회상이 가장 깨끗한 사전 학습-부하 지지 사례입니다: 고정된 슬라이드 + 113K 파라미터 선형 인터페이스는 L30 최상의 체크포인트 비트당 오차 0.0505 ($n=2$); 매칭된 용량에서부터 훈련된 6.36M 파라미터 트랜스포머 ($1/\sqrt{d_k}$ 스케일링, 두 시드, LR 스윙) 은 프로토콜 하에 작업을 전혀 해결할 수 없습니다 (최상의 L30 = 0.4395), $8.7 imes$의 이점입니다. 구조 자체를 통한 허위 증명: 올바른 $1/\sqrt{d_k}$ 스케일링을 가진 고정된 랜덤 트랜스포머는 50k 단계 동안 랜덤 확률 손실 상태를 유지합니다; 랜덤 인시트 Gemma 슬라이드는 OGBench cube-double-play-task1 전체 실패 (0.89%에서 $n=3$) 합니다 (사전 학습은 60%에 도달) . 이중 측정 프로토콜 -- 95 영어 문장에 대한 텍스트 활성화 탐지 및 언어 대상이 아닌 작업 아블레이션 -- 두 프로토콜 모두 개별 헤드를 독립적으로 식별합니다: L26.28 헤드는 영어 토큰 복사 $3.7 imes$ 슬라이드 평균을 점수하며 이진 복사 아블레이션 ($\Delta$ L30 $= +0.221$) 에서 #2 가장 중요한 헤드로, 세 가지 추가 헤드 (L27.28, L27.2, L27.3) 는 동일한 프로토콜에 의해 분류됩니다. 메커니즘은 단일 모델이며 교차 모달리티 결과는 각각의 벤치마크 내에서 단일 작업입니다; Gemma 4 31B 는 2026 년 4 월까지 소규모 파레토 프론티어仅有的 모델이므로 교차 모델 복제는 구조적으로 제한됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

Frozen Geometry: 다양한 모달리티 간 고정된 텍스트 사전 학습 트랜스포머 가중치 계산적 재사용

요약

핵심 포인트

댓글