Frozen Geometry: 다양한 모달리티 간 고정된 텍스트 사전 학습 트랜스포머 가중치 계산적 재사용
요약
본 기술 기사는 텍스트 토큰으로 사전 학습된 고정(Frozen) Gemma 4 31B 트랜스포머 가중치를 활용하여, 별도의 훈련 가능한 인터페이스를 통해 다양한 모달리티 간의 경계를 넘어 지식을 전이하는 방법을 제시합니다. 이 접근 방식은 로봇 조작 작업(OGBench 등)에서 기존 최고 성능 기록을 능가하는 성과를 달성하며, 특히 기지판(baseboard)이 결코 본 적 없는 새로운 작업에서도 우수한 성능을 보여주었습니다. 또한, 구조적 분석 및 아블레이션 연구를 통해 모델의 특정 헤드와 스케일링 방법론이 모달리티 간 지식 전이에 핵심적인 역할을 함을 입증했습니다.
핵심 포인트
- 고정된 텍스트 사전 학습 가중치(Frozen Gemma 4 31B)를 활용하여 다양한 모달리티 작업에 대한 성능 향상을 달성함.
- 로봇 조작 태스크(OGBench 등)에서 기존 SOTA 기록을 능가하는 높은 성능을 입증하며, 새로운 환경에서도 일반화 능력을 보여줌.
- 훈련 가능한 인터페이스와 구조적 분석을 통해 모델의 특정 헤드 및 스케일링 방법론이 모달리티 간 지식 전이에 결정적인 역할을 함을 밝힘.
- 제시된 접근 방식은 단일 모델 기반이며, 교차 모달리티 결과는 각 벤치마크 내에서 독립적인 작업으로 처리됨.
텍스트 토큰으로 전용 사전 학습된, 수정되지 않은 Frozen Gemma 4 31B 가중치를 얇은 훈련 가능한 인터페이스를 통해 모달리티 경계 간에 전이합니다. (1) OGBench scene-play-singletask-task1-v0: $n=3$에서 $+4.33$pt로 공개된 GCIQL을 초과하며 표준 편차 0.74 -- 로봇 조작 작업에서 기지판이 결코 본 적이 없던 작업에 대한 공개된 SOTA 승리입니다. (2) D4RL Walker2d-medium-v2: 훈련 가능 계수 $0.43 imes$ DT의 경우 결정 트랜스포머 평등 ($76.2 \pm 0.8$, $n=3$), 고정된 기지판이 5L 슬라이스로 압축되며 ($n=3$에서 6L 베이스라인 대비 $+1.66$pt) (3) 연상 회상이 가장 깨끗한 사전 학습-부하 지지 사례입니다: 고정된 슬라이드 + 113K 파라미터 선형 인터페이스는 L30 최상의 체크포인트 비트당 오차 0.0505 ($n=2$); 매칭된 용량에서부터 훈련된 6.36M 파라미터 트랜스포머 ($1/\sqrt{d_k}$ 스케일링, 두 시드, LR 스윙) 은 프로토콜 하에 작업을 전혀 해결할 수 없습니다 (최상의 L30 = 0.4395), $8.7 imes$의 이점입니다. 구조 자체를 통한 허위 증명: 올바른 $1/\sqrt{d_k}$ 스케일링을 가진 고정된 랜덤 트랜스포머는 50k 단계 동안 랜덤 확률 손실 상태를 유지합니다; 랜덤 인시트 Gemma 슬라이드는 OGBench cube-double-play-task1 전체 실패 (0.89%에서 $n=3$) 합니다 (사전 학습은 60%에 도달) . 이중 측정 프로토콜 -- 95 영어 문장에 대한 텍스트 활성화 탐지 및 언어 대상이 아닌 작업 아블레이션 -- 두 프로토콜 모두 개별 헤드를 독립적으로 식별합니다: L26.28 헤드는 영어 토큰 복사 $3.7 imes$ 슬라이드 평균을 점수하며 이진 복사 아블레이션 ($\Delta$ L30 $= +0.221$) 에서 #2 가장 중요한 헤드로, 세 가지 추가 헤드 (L27.28, L27.2, L27.3) 는 동일한 프로토콜에 의해 분류됩니다. 메커니즘은 단일 모델이며 교차 모달리티 결과는 각각의 벤치마크 내에서 단일 작업입니다; Gemma 4 31B 는 2026 년 4 월까지 소규모 파레토 프론티어仅有的 모델이므로 교차 모델 복제는 구조적으로 제한됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기