PCA 및 Kernel PCA를 이용한 항공사 클러스터 분석에서의 직교성 및 차원성
요약
미국 항공사 수익 데이터를 활용하여 PCA와 Kernel PCA를 통한 클러스터링 재현 실험을 수행했습니다. 분석 결과, 데이터가 본질적으로 선형적인 매니폴드 구조를 가짐을 확인했으며, 실루엣 계수를 통해 최적의 클러스터 개수가 3개임을 도출했습니다.
핵심 포인트
- PCA를 통한 차원 축소 시 원시 데이터와 동일한 클러스터 할당 가능 확인
- Kernel PCA 실험을 통해 데이터의 선형 매니폴드 특성 검증
- 실루엣 기준을 통해 구조적으로 최적화된 클러스터 개수(k=3) 식별
- 원시 공간의 공선성이 클러스터 신호를 억제하는 현상 분석
1995년부터 2020년까지의 미국 항공사 수익 사이클을 특징짓기 위해, Renold et al. (2023)의 저자들은 k-means 클러스터링 (k-means clustering), 주성분 분석 (Principal Component Analysis, PCA), 그리고 시스템 동학 모델링 (System Dynamic Modelling)을 결합하였습니다. 우리는 논문에 감사하게도 포함된 그들의 데이터셋을 사용하여 세 가지 공간, 즉 원래의 7차원 원시 변수 공간 (7-dimensional raw-variable space), 3차원 PC 점수 공간 (3-dimensional PC score space), 그리고 4차원 PC 점수 공간 (4-dimensional PC score space)에서 그들의 클러스터링 실험을 재현합니다. 우리는 6개 클러스터 분류 체계가 기하학적으로 견고함을 보여줍니다. 즉, 3-PC 공간에서의 k-means는 7D 원시 공간과 비교했을 때 비트 단위로 동일한 클러스터 할당을 생성합니다. 비선형성 확인을 위해, 우리는 세 가지 계열을 아우르는 6개의 커널 (kernel)과 선형 베이스라인 (linear baseline)을 사용하여 커널 PCA (Kernel PCA)를 적용합니다. 6개의 커널 모두 2D에서 6개 클러스터 할당을 유지합니다. 1D 진단은 이를 더욱 구체화합니다. 선형 커널 (linear kernel)은 COVID 연도인 C_3를 수익 정점 클러스터인 C_0와 혼동하는 반면, 베이스라인이 아닌 나머지 5개의 커널은 C_3를 금융 위기 이후 클러스터인 C_5와만 겹치도록 이동시킵니다. 커널 계열 간의 일치는 숨겨진 곡률이 없는 본질적으로 선형적인 매니폴드 (linear manifold)임을 확인시켜 줍니다. 실루엣 기준 (silhouette criterion)은 이 데이터셋이 6개가 아닌 구조적으로 오직 3개의 클러스터만을 지원한다는 것을 드러냅니다. 원시 7D 공간에서의 공선성 (Collinearity)은 k=3을 구조적으로 동기 부여된 선택으로 식별할 수 있었을 실루엣 신호를 억제합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기