arXiv논문2026. 06. 10. 11:11

데이터 증강을 위한 궤적 선택의 체계적 접근 방식

요약

궤적 데이터 증강 시 시공간적 일관성을 유지하며 효율적인 데이터를 선택하기 위한 다섯 가지 체계적 전략을 제안합니다. 이상치성, 다양성, 대표성 등을 평가하는 프레임워크를 통해 무작위 선택보다 우수한 성능을 입증했습니다.

핵심 포인트

이상치성(Outlierness)과 불확실성(Uncertainty) 전략이 높은 안정성 제공
데이터 밀도에 따라 증강의 효용성이 달라짐을 확인
희소 데이터셋의 위상적 파편화 복구에 효과적
고품질 밀집 데이터셋에서는 증강이 노이즈로 작용할 위험 존재

궤적 데이터 증강 (Trajectory data augmentation)은 머신러닝 (Machine Learning) 애플리케이션에서 데이터 부족 문제를 완화할 수 있는 유망한 접근 방식이지만, 시공간적 일관성 (Spatio-temporal coherence)을 유지하는 복잡성으로 인해 그 효용성이 제한되어 왔습니다. 이전 연구들이 기하학적 섭동 (Geometric perturbation)의 생존 가능성을 입증했음에도 불구하고, 이는 단순한 무작위 선택 (Naive random selection)에 의존했기에 최대의 이익을 얻기 위해 어떤 궤적을 증강해야 하는지에 대한 이해에는 중요한 공백이 남아 있었습니다. 본 논문은 Outlierness (이상치성), Diversity (다양성), Representativeness (대표성), Uncertainty (불확실성), 그리고 Random selection (무작위 선택)이라는 다섯 가지 체계적인 선택 전략을 평가하기 위한 체계적이고 확장 가능한 프레임워크를 개발함으로써 이 공백을 메웁니다. 이러한 전략들은 선형 및 비선형 머신러닝 모델 세트를 사용하여 동물 행동 (Foxes 및 Starkey), 해상 교통 (AIS), 도시 교통 (Car)을 다루는 네 가지 데이터셋에 대해 엄격하게 테스트되었습니다. 이 평가의 일환으로, 탐색된 탐색 공간 내에서 각 데이터셋에 대해 가장 성능이 좋은 증강 파라미터를 경험적으로 식별하기 위해 Optuna 기반의 하이퍼파라미터 최적화 (Hyperparameter optimization) 루프가 통합되었습니다. 결과에 따르면, 체계적인 선택이 보편적인 해결책은 아니지만, 무작위 베이스라인 (Random baseline)에 비해 뚜렷한 이점을 제공한다는 것을 알 수 있습니다. 체계적인 전략, 특히 Outlierness와 Uncertainty는 더 높은 안정성을 보여주었으며, 밀집된 데이터셋에서 무작위 샘플링 (Random sampling) 시 관찰되는 성능 저하 현상이 덜 나타났습니다. 그러나 연구 결과는 증강의 가치가 엄격하게 조건부적이라는 사실도 밝혀냈습니다. UMAP을 통한 시각적 분석은 체계적인 증강이 희소한 데이터셋 (Sparse datasets)에서의 위상적 파편화 (Topological fragmentation)를 성공적으로 복구하는 반면, 고품질의 밀집된 데이터셋 (Dense datasets)에서는 오염을 일으키는 노이즈 신호로 작용할 수 있음을 보여줍니다. 또한, 본 연구는 표준 섭동 기술이 특징 공간 (Feature space)에서의 발산 (Divergence)을 초래하는 고속 영역에서의 물리적 한계를 식별하였습니다...

AI 자동 생성 콘텐츠

원문 바로가기

데이터 증강을 위한 궤적 선택의 체계적 접근 방식

요약

핵심 포인트

댓글