본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 25. 00:25

스트리밍 연속 학습 평가의 불안정성: 시간적 태스크화 문제 제기

요약

본 논문은 스트리밍 환경에서 이루어지는 연속 학습(Continual Learning, CL)의 평가 과정 자체에 구조적인 문제를 지적합니다. 일반적으로 데이터 스트림을 시간 단위로 분할하여 이산적인 작업(task)으로 변환하는 '시간적 태스크화(Temporal Taskification)' 과정이 중립적이지 않으며, 같은 원본 스트림이라도 분할 방식(split)에 따라 완전히 다른 학습 결과와 성능 지표를 유발할 수 있음을 보여줍니다. 이는 CL 벤치마크의 신뢰성에 근본적인 의문을 제기하며, 태스크화 방식을 모델 평가의 핵심 변수로다

핵심 포인트

  • CL 평가는 데이터 스트림을 시간적으로 분할하는 '태스크화' 과정에 크게 의존하며, 이 자체가 성능 지표의 불안정성을 야기합니다.
  • 분석 결과, 9일, 30일, 44일 등 다양한 기간으로 데이터를 분할(taskification)했을 때 예측 오차, 망각(forgetting), 역방향 전이(backward transfer)에 상당한 변화가 관찰되었습니다.
  • 연구팀은 'Boundary-Profile Sensitivity (BPS)'라는 새로운 지표를 도입하여 경계 조건의 작은 변화가 학습 결과에 미치는 민감도를 진단할 수 있음을 제시했습니다.
  • 결론적으로, 스트리밍 CL 모델의 성능은 단순히 학습 알고리즘이나 데이터셋뿐만 아니라, 데이터를 어떤 방식으로 태스크화했는지에 따라 달라집니다.

Temporal Taskification in Streaming Continual Learning: A Source of Evaluation Instability

Streaming Continual Learning (CL) typically converts a continuous stream into a sequence of discrete tasks through temporal partitioning. We argue that this temporal taskification step is not a neutral preprocessing choice, but a structural component of evaluation: different valid splits of the same stream can induce different CL regimes and therefore different benchmark conclusions. To study this effect, we introduce a taskification-level framework based on plasticity and stability profiles, a profile distance between taskifications, and Boundary-Profile Sensitivity (BPS), which diagnoses how strongly small boundary perturbations alter the induced regime before any CL model is trained. We evaluate continual finetuning, Experience Replay, Elastic Weight Consolidation, and Learning without Forgetting on network traffic forecasting with CESNET-Timeseries24, keeping the stream, model, and training budget fixed while varying only the temporal taskification. Across 9-, 30-, and 44-day splits, we observe substantial changes in forecasting error, forgetting, and backward transfer, showing that taskification alone can materially affect CL evaluation. We further find that shorter taskifications induce noisier distribution-level patterns, larger structural distances, and higher BPS, indicating greater sensitivity to boundary perturbations. These results show that benchmark conclusions in streaming CL depend not only on the learner and the data stream, but also on how that stream is taskified, motivating temporal taskification as a first-class evaluation variable.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0