본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:44

트랜스포머를 활용한 비선형 회귀의 In-Context 학습 이해: 주의를 피처화자로

요약

본 논문은 트랜스포머 기반의 인-컨텍스트 학습(ICL)이 비선형 회귀 문제에 어떻게 적용될 수 있는지 탐구합니다. 기존 연구가 선형 모델에 집중된 것과 달리, 본 연구는 주의 메커니즘을 활용하여 다항식이나 스플라인 같은 넓은 함수 클래스를 포함하는 비선형 피처를 명시적으로 구성하고 이를 통해 엔드투엔드 ICL 프레임워크를 제시합니다. 나아가 컨텍스트 길이와 학습 세트 크기를 기반으로 하는 유한 샘플 일반화 오차 한계를 이론적으로 도출하고 수치적으로 검증했습니다.

핵심 포인트

  • ICL의 이론적 이해는 여전히 발전 중이며, 본 연구는 비선형 회귀 설정에 초점을 맞춥니다.
  • 주의(Attention) 메커니즘을 활용하여 트랜스포머 네트워크를 구성하고, 이를 통해 다항식/스플라인 기반의 비선형 피처를 구현합니다.
  • 구성된 비선형 피처를 사용하여 엔드투엔드 인-컨텍스트 비선형 회귀 분석 프레임워크를 확립했습니다.
  • 컨텍스트 길이와 학습 세트 크기를 기준으로 하는 유한 샘플 일반화 오차 한계를 이론적으로 제시하고 검증했습니다.

Pre-trained transformers 는 프롬프트에 포함된 예시로부터 무중량 업데이트 없이 학습할 수 있으며, 이를 인맥 학습 (In-Context Learning, ICL) 이라고 합니다. 다양한 분야에서 입증된 효과성에도 불구하고, ICL 의 이론적 이해는 여전히 발전 중입니다. 기존 대부분의 이론은 선형 모델에 집중되어 왔지만, 우리는 비선형 회귀 설정에서 ICL 을 연구합니다. 주의의 상호작용 메커니즘을 통해 트랜스포머 네트워크를 명시적으로 구성하여 다항식이나 스플라인 베이스와 같은 넓은 함수 클래스를 포함하는 비선형 피처를 구현합니다. 이 구성을 바탕으로, 우리는 구성된 피처를 사용하여 엔드 투 엔드 인맥 비선형 회귀를 분석하는 프레임워크를 확립합니다. 우리의 이론은 컨텍스트 길이와 학습 세트 크기를 기준으로 유한 샘플 일반화 오차 한계를 제공합니다. 우리는 수치적 방법으로 합성 회귀 작업에서 이론을 검증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0