본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 13:01

Is One Layer Enough? Understanding Inference Dynamics in Tabular Foundation

요약

본 논문은 트랜스포머 기반 표본 컨텍스트 학습 모델(TFM)의 추론 메커니즘을 심층적으로 분석했습니다. 연구진은 6개의 최첨단 모델에 걸쳐 층별 역학을 대규모로 조사하여, 예측이 깊이에 따라 어떻게 나타나는지 탐구하고 언어 모델과 다른 잠재 공간 동역학을 발견했습니다. 그 결과, 여러 모델에서 상당한 깊이 방향 중복성이 확인되었으며, 이를 바탕으로 원래 모델의 단 20% 파라미터만 사용하여 유사 성능을 내는 '루프 단일 층 모델'를 설계하는 개념 증명을 제시했습니다.

핵심 포인트

  • TFM의 추론 메커니즘에 대한 대규모 층별 분석을 최초로 수행함.
  • 표본 예측에서 깊이 방향 중복성(depth-wise redundancy)을 발견하여, 반복적 정교화가 핵심임을 시사함.
  • 원래 모델 파라미터의 극히 일부(20%)만 사용하여 유사 성능을 달성하는 '루프 단일 층 모델' 개념 증명을 제시함.
  • 표본 컨텍스트 학습 모델은 언어 모델과 다른 고유한 잠재 공간 역학을 가짐.

Transformer 기반 표본 기반 모델 (TFM) 은 작은 규모부터 중규모까지의 표본 예측 벤치마크 작업을 지배하고 있지만, 그 추론 메커니즘은 여전히 광범위하게 탐구되지 않았습니다. 우리는 6 개의 최첨단 표본 컨텍스트 학습 모델에서 층별 역학에 대한 대규모 기계적 연구를 처음으로 제시합니다. 우리는 예측이 깊이에 따라 어떻게 나타나는지 탐구하며, 추론의 다른 단계를 식별하고 언어 모델과 다른 잠재 공간 역학을 드러냅니다. 우리의 연구 결과는 여러 모델에 걸쳐 상당한 깊이 방향 중복성을 시사하며, 추론 단계 동안 중첩된 계산을 통한 반복적 정교화를 제안합니다. 이러한 통찰을 바탕으로, 우리는 원래 모델의 20% 만의 파라미터를 사용하여 유사한 성능을 달성하는 증명 개념, 루프 단일 층 모델을 설계했습니다. 코드는 https://github.com/amirbalef/is_one_layer_enough 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0