인컨텍스트 지속 학습 (In-Context Continual Learning)에서의 일반화와 망각에 대한 이해
요약
본 연구는 LLM이 프롬프트 내에서 순차적인 작업을 수행할 때 발생하는 인컨텍스트 지속 학습의 메커니즘을 분석합니다. 어텐션 메커니즘이 작업 간 간섭을 유발하여 일반화와 망각에 미치는 영향을 이론적 프레임워크로 규명합니다.
핵심 포인트
- 인컨텍스트 지속 학습을 위한 최초의 이론적 프레임워크 제안
- 어텐션 메커니즘이 작업 간 간섭과 체계적 편향을 유발함을 증명
- 예측 오차에 대한 편향-분산-간섭 분해 분석 제공
- 과거 컨텍스트가 긍정적 또는 부정적 전이에 미치는 조건 규명
인컨텍스트 학습 (In-Context Learning, ICL)은 매개변수 업데이트 (Parameter updates)의 필요성을 완전히 배제하고, 프롬프트 기반 추론 (Prompt-based reasoning)만으로 대규모 언어 모델 (Large Language Models, LLMs)이 새로운 작업에 적응할 수 있게 함으로써 그 강력한 성능을 발휘합니다. 기존 이론들은 주로 단일 작업 (Single-task) 설정에서의 ICL을 연구해 왔으나, 실제 세계의 프롬프트는 종종 이질적인 작업들의 시퀀스 (Sequences of heterogeneous tasks)를 포함하고 있어, 대규모 언어 모델이 추론 (Inference) 과정에서 암묵적으로 지속 학습 (Continual learning)을 수행하는지에 대한 이해에는 공백이 존재합니다. 이 공백을 메우기 위해, 우리는 사전 학습된 트랜스포머 (Pretrained Transformer)가 공유된 어텐션 메커니즘 (Shared attention mechanisms)을 통해 단일 프롬프트 내에서 어떻게 여러 순차적 작업들을 처리하는지를 모델링하는, 인컨텍스트 지속 학습 (In-context continual learning)을 위한 최초의 이론적 프레임워크를 제안합니다. 선형 (Linear) 및 마스크드 선형 (Masked linear) 셀프 어텐션 (Self-attention)에 초점을 맞추어, 우리는 순차적 작업 프롬프트 하에서의 모델 예측에 대한 오차 표현식 (Error expressions)을 도출하고, 이들의 일반화 (Generalization) 및 망각 (Forgetting) 동작을 분석합니다. 우리의 연구 결과는 표준 어텐션 메커니즘이 과거의 컨텍스트 (Historical contexts)를 균등하게 또는 인과적으로 집계함으로써 필연적으로 작업 간 간섭 (Intertask interference)을 유발하여 체계적인 편향 (Systematic bias)으로 이어진다는 것을 보여줍니다. 나아가 우리는 예측 오차에 대한 편향-분산-간섭 분해 (Bias-variance-interference decomposition)를 제공하여, 과거의 인컨텍스트 정보가 언제 긍정적 전이 (Positive transfer)를 일으키는지 또는 증명 가능한 부정적 전이 (Negative transfer)를 일으키는지 규명합니다. 이 분석은 어텐션 기반 지속 추론 (Attention-based continual inference)의 근본적인 한계를 드러내며, 긴 프롬프트에서의 순서 민감도 (Order sensitivity) 및 성능 저하에 대한 이론적 설명을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기