arXiv논문2026. 05. 21. 10:52

시퀀스 분류 (Sequence Classification)를 위한 자기 사전 학습 (Self-Pretraining) 이해를 향하여

요약

Amos et al. (2024)의 연구를 바탕으로 시퀀스 분류를 위한 자기 사전 학습(Self-Pretraining, SPT)의 효과를 분석합니다. 연구 결과, SPT는 레이블 지도(Label Supervision)가 학습하기 어려운 유용한 어텐션 패턴을 마스크된 토큰 예측을 통해 먼저 형성함으로써 모델의 최적화를 돕는 것으로 나타났습니다.

핵심 포인트

자기 사전 학습(SPT)은 외부 데이터 없이 마스크된 토큰 예측만으로 시퀀스 분류 성능을 크게 향상시킴
표준 지도 학습의 한계는 레이블 지도가 무작위 초기화 상태에서 유용한 쿼리-키 어텐션 패턴을 학습하는 데 어려움을 겪기 때문임
SPT의 핵심 개선 원천은 절대적 위치 인코딩을 근접성 편향 어텐션 점수로 전환하는 학습 근접성 상호작용에 있음
레이블 지도는 마스크된 재구성을 통해 탐지 가능한 특정 어텐션 점수 방향에 대해 국소적으로 맹목적일 수 있음

Amos et al. (2024)은 외부 데이터나 증강 (Augmentation) 없이 마스크된 토큰 예측 (Masked Token Prediction) 목적 함수를 사용하여 먼저 사전 학습 (Pretraining)을 수행하는 절차인 자기 사전 학습 (Self-Pretraining, SPT)을 통해, 시퀀스 분류 (Sequence Classification)에서 Transformer 모델의 정확도를 크게 향상시킬 수 있음을 보여주었습니다. Amos et al. (2024)의 주요 목적은 Transformer가 Long-Range Arena (LRA)에서 강력한 성능을 달성할 수 있음을 보여주는 것이었지만, 그들의 파이프라인은 더 근본적인 질문을 제기합니다: SPT는 어떻게 더 나은 솔루션으로 최적화 (Optimization)를 유도하는가? 왜 표준적인 지도 학습 (Supervised Training)은 Transformer에서 실패할 수 있는가? 이를 더 잘 이해하기 위해, 우리는 Amos et al. (2024)의 연구 결과를 재현하고 체계적으로 절제 연구 (Ablation)를 수행합니다. 우리의 절제 연구 결과는 연구된 설정에서의 핵심적인 병목 현상 (Bottleneck)이 깊이 (Depth)나 일반화 (Generalization) 단독의 문제가 아니라, 레이블 지도 (Label Supervision)가 무작위 초기화 (Random Initialization)로부터 유용한 쿼리-키 어텐션 (Query-Key Attention) 패턴을 학습하는 능력임을 시사합니다. 최소한의 설정으로, 우리는 학습 근접성 상호작용 (Learning Proximity Interactions) — 절대적 위치 인코딩 (Absolute Positional Encodings)을 근접성 편향 어텐션 점수 (Proximity-biased Attention Scores)로 전환하는 것 — 이 SPT가 가져오는 개선의 핵심 원천임을 확인했습니다. 마지막으로, 단순화된 이론적 설정에서, 우리는 레이블 지도 (Label Supervision)가 마스크된 재구성 (Masked Reconstruction)을 통해서는 탐지될 수 있는 특정 어텐션 점수 (Attention-score) 방향에 대해 국소적으로 맹목적 (Locally Blind)일 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

시퀀스 분류 (Sequence Classification)를 위한 자기 사전 학습 (Self-Pretraining) 이해를 향하여

요약

핵심 포인트

댓글