Qiita헤드라인2026. 05. 18. 07:59

예측 AI를 위한 특성 공학(Feature Engineering) 가이드

요약

본 가이드는 예측 AI 모델, 특히 Gradient Boosting Decision Trees (GBDT)의 성능을 극대화하기 위한 핵심 프로세스인 '특성 공학(Feature Engineering)'에 초점을 맞춥니다. 원천 데이터로부터 학습 효율과 예측 정밀도를 높이는 정보 표현을 설계하고 변환하는 방법을 다루며, 기본적인 전처리부터 비즈니스 도메인 지식을 통합한 실질적인 특성 설계 노하우를 제시합니다.

핵심 포인트

GBDT는 결정 트리 기반 모델이므로 스케일링(Standardization/Normalization)은 원칙적으로 불필요하며, 정보량이 높은 특성 설계가 정밀도의 상한선을 결정한다.
결측치 처리는 단순히 보완하는 것이 아니라, 결측 자체가 중요한 예측 시그널일 수 있으므로 '생성 과정에 대한 가설'에 기반하여 접근해야 한다.
범주형 데이터 인코딩 시 Label Encoding은 고카디널리티 상황에서 효율적이며, Target Encoding 사용 시에는 리크(Leakage) 방지를 위한 K-Fold 등의 관리가 필수적이다.
특성 공학의 핵심은 '왜 이벤트가 발생하는가'라는 비즈니스 질문을 데이터화하는 것이며, 모델 출력이 의사결정으로 이어지는 정책 실행 가능성을 특성으로 명시해야 한다.

Orbitics 주식회사 데이터 사이언스부의 우에노입니다.

이전에 집필한 「예측 AI 모델의 알고리즘 선택」 기사에서는, 구조화된 데이터(Structured Data)를 대상으로 하는 예측 AI 모델 구축에 있어 **그래디언트 부스팅(Gradient Boosting Decision Trees, GBDT)**이 높은 범용성과 정밀도를 겸비한 접근 방식임을 설명했습니다.

본 기사에서는 그 그래디언트 부스팅의 성능을 최대한으로 끌어올리기 위한 핵심 프로세스──특성 공학(Feature Engineering)──에 대해 자세히 설명합니다. 기본적인 데이터 전처리부터 예측 정밀도를 향상시키기 위한 고도의 설계 기법까지 체계적으로 정리하며, 특히 결정 트리(Decision Tree) 기반 모델에 특유의 데이터 구조적 요구사항과,

비즈니스 이해에 기반한 실천적인 특성 설계의 노하우에 초점을 맞춥니다.

특성 공학은 원천 데이터(Raw Data)로부터 학습 효율과 예측 정밀도를 높이는 정보 표현을 설계, 변환, 생성하는 프로세스입니다. 통계적 기법과 도메인 지식(Domain Knowledge)을 통합하여, 모델이 학습하기 쉬운 형태로 현상을 사상(Mapping)합니다.

GBDT에 특유의 전제

스케일링(Scaling)은 원칙적으로 불필요: 결정 트리는 값의 대소 관계에 기반하여 분할을 수행하므로, 표준화(Standardization)·정규화(Normalization)의 효과는 제한적입니다.
비선형·상호작용의 자동 추출: 트리 구조가 계층적으로 상호작용을 포착하는 한편, 정보량이 높은 특성 설계가 정밀도의 상한선을 결정합니다.

결측치(Missing Value) 처리

유지: 결측 그 자체가 행동 특성이나 운용상의 의미를 갖는 경우 (예: 특정 그룹에 편중된 속성 미응답).
특수값으로 암시: 범위 외의 값(예: 플래그 형태의 더미 변수)을 통해 '결측임'을 명확히 전달.
대표값으로 보완: 결측이 노이즈에 가깝고 분포를 유지하고 싶은 경우에는 중앙값(Median) 등으로 보완.
포인트: 보완 방침은 '생성 과정에 대한 가설'에 기반하여 선택합니다. 결측치는 종종 중요한 예측 시그널이 됩니다.

범주형 데이터(Categorical Data) 인코딩

Label Encoding: 순서성이 없더라도 트리는 임계값(Threshold)으로 분할 가능합니다. 고카디널리티(High Cardinality) 상황에서 계산 효율이 좋습니다.
One-Hot Encoding: 카테고리 수가 적을 때 유효합니다. 고차원화와 희소화(Sparsity)에 주의해야 합니다.
Frequency / Count Encoding: 카테고리 빈도를 수치화합니다. 분포의 편향 정보를 제공합니다.
Target Encoding (OOF 전제): 고카디널리티 상황에서 유효하지만, 리크(Leakage) 리스크 관리(K-Fold, 시계열 분할, 정규화)가 필수적입니다.

비즈니스 로직의 반영

「왜 이벤트가 발생하는가」를 데이터화합니다.

EC 구매 예측: 누적 횟수보다는 「최근 기간의 특정 카테고리 집중도」, 「탐색→비교→구매의 행동 스테이지」 등.
설비 고장 예측: 「직전 유지보수 이후의 가동 시간」, 「임계값 초과 연속 시간」, 「부하 이력의 누적」 등.

모델 출력이 의사결정으로 이어지는 설계를 수행합니다.

캠페인 접촉·노출 빈도·적용 여부, 할인 강도, 재고·예산 제약의 플래그화.
시책의 존재를 명시함으로써, 효과의 분리와 정책 실행 가능성을 담보합니다.

예외적 가치의 명시

통계적 이상치(Outlier)가 아닌, 비즈니스상의 예외적 가치(VIP·대량 주문·중요 계정 등)를 명시합니다. 학습 시 희소 이벤트의 의미를 잃지 않도록 합니다.

시간 관련 특성(Time-related Features)

캘린더 특성: 요일·월·분기·시간대·공휴일.
상대 시간: 최종 이벤트로부터 경과된 시간(Recency), 지속 기간, 체류 시간.
주기성: 계절성·주간성을 포착하는 이산화 또는 순환 표현 (예: 요일 × 시간대).

빈도 및 관계 특성

Count / Frequency: 사용자·상품·카테고리 등의 출현 빈도·희소성.
병매·공기(Co-occurrence): 카테고리 공기 횟수, 시퀀스 내의 반복·추이 패턴.

집계 통계량(Aggregated Statistics)

집계 통계: 평균·중앙값·분산·최대·최소·분위수.
그룹 입도(Granularity): 사용자 단위, 점포 단위, 상품 카테고리 단위 등 의사결정 입도에 맞춥니다.
강건성(Robustness): 극단값의 영향을 완화하기 위해 중앙값·분위수를 활용합니다.

수치 변환 및 윈도우 특성

차·비·비율: 수준 차이, 성장률, 구성비, 가격대비, 수요/공급비.
비닝(Binning): 연속값을 구간화하여 노이즈 내성과 비선형성을 강화 (등빈도·등폭·규칙 기준).
시계열 윈도우(Time-series Window): 이동 평균·이동 분산·이동 최대/최소로 트렌드와 변동성(Volatility)을 표현.

주의사항

미래 정보는 사용하지 않음 (학습 시점의 가용 정보만 사용).
집계는 시점 준수 (시계열 분할을 통해 안전하게 처리).
교차 검증(Cross-validation)과 일관성 유지 (특성 계산·인코딩은 분할 내에서 완결).
클리핑 (Clipping): 상하 백분위수(Percentile)로 값을 반올림하여 과도한 분할로 인한 변동을 억제.
플래그화 (Flagging): 범위를 벗어난 값이나 이상 패턴을 이진화(Binarization)하여 정보 유지.
문맥 의존성 (Context Dependency): 단순한 극치값인지, 아니면 중요 고객이나 예외적인 운영 상황인지 구분.
빈도 (Frequency) · 타겟 (Target) · 해시 (Hash) 등을 상황에 맞춰 선택적으로 사용.
정규화 (Regularization) 및 검증 설계를 통해 리크(Leak) 리스크 관리.
계층적 카테고리 (Hierarchical Category) 활용 (상품 → 서브 카테고리 → 카테고리)을 통해 표현력과 안정성 양립.
스키마 변경 · 입도(Granularity) 변경에 따른 의사 드리프트(Pseudo-drift) 모니터링.
특성 정의의 카탈로그화 (데이터 사전 · 단위 · 계산 근거 · 의존성 표).
특성 생성의 파이프라인화 (학습과 추론에서 동일한 처리 재현).
중요도 (Importance) (Gain / Split / Permutation)를 통해 기여도가 낮은 특성을 가지치기(Pruning).
**상관관계 · 다중공선성 (Multicollinearity)**이 높은 중복 쌍을 삭제하여 과적합(Overfitting)과 계산량 억제.
안정적 중요도 (Stable Importance): 여러 번의 분할, 기간, 서브 샘플을 통해 중요도의 일관성 확인.
분류 (Classification): AUC · PR-AUC · 로그 손실(Log Loss)에 대한 기여.
회귀 (Regression): RMSE · MAE · MAPE 등 운영 KPI와의 괴리 확인.
리프트/게인 (Lift/Gain): 의사결정(시책 대상 선별)에 직결되는 지표로 재평가.
iid 가정: 층화 K-Fold (Stratified K-Fold) 등 표준 분할 사용.
시계열 (Time-series): TimeSeriesSplit이나 전향적 검증(Forward Validation)으로 미래 누수 (Future Leakage) 방지.
그룹 의존성 (Group Dependency): 사용자/점포/기업 단위로 Group K-Fold를 사용하여 리크 억제.
집합 지표 (Aggregate Metrics): AUC, RMSE 등의 전체 성능.
세그먼트 지표 (Segment Metrics): 중요 세그먼트별 (VIP, 지역, 계절) 성능 편차.
사업 KPI: 이윤 · 재고 회전율 · 해지 억제 수 등 의사결정의 성과로 최종 평가.
섭동 테스트 (Perturbation Test): 노이즈 주입 · 임계값 변동 · 이상치 혼입 시의 민감도.
시프트 내성 (Shift Resilience): 기간 시프트, 세그먼트 시프트 하에서의 성능 저하율 (데이터/컨셉 드리프트를 의식).
리크 (Leak): 타겟 정보를 직접/간접적으로 포함하는 특성 (예: 당일 매출을 설명 변수로 사용).

→ 분할 · 시점 · 의존성 표를 고정하고, 재계산을 통해 재현성 검증.

과적합 (Overfitting): 높은 카디널리티(High Cardinality) × 타겟 인코딩(Target Encoding)의 과도한 적합.

→ K-Fold OOF, 평활화(Smoothing), 노이즈 주입, 사후 안정적 중요도로 억제.

입도 불일치 (Granularity Mismatch): 학습과 추론 시 집계 입도가 다름.

→ 생성 로직을 파이프라인화하여 동일한 구현을 공유.

평가 목적의 괴리: 오프라인 지표가 사업 KPI와 일치하지 않음.

→ 오프라인 → 섀도우(Shadow) 운영 → 제한적 온라인 단계로 평가.

데이터 사전: 정의 · 단위 · 결측 처리 방침 · 변환 근거가 명시되어 있음.
특성 카탈로그: 의존 열 · 계산식 · 계산 윈도우 · 리크 대책 · 예상 용도를 기재.
재현 가능성: 학습/추론의 처리 계통이 일치 (파이프라인/함수화).
검증 설계: 분할법 · 지표 · 임계값 설정 · 세그먼트 평가가 사업 목적과 일치.
드리프트 모니터링: 입력 분포 · 특성 분포 · 중요도 · 성능의 정체성(Stationarity)을 지속적으로 모니터링.
운영 경계: 이상치 · 미지의 카테고리 · 결측치 급증 시의 페일 세이프(Fail-safe) 및 로그 출력.

그래디언트 부스팅(Gradient Boosting)의 예측 정밀도는 특성 설계에 의해 크게 좌우됩니다.

스케일링이 불필요하고 비선형성/상호작용에 강하다는 특성을 바탕으로, 문맥의 언어화, 시책 변수의 도입, 로버스트한 집계 · 빈도 · 시계열 윈도우와 같은 설계를 일관된 검증 프레임워크 안에서 다듬어 나가는 것이 중요합니다.

통계적 정합성과 비즈니스 타당성을 양립시킴으로써, 정밀도 · 안정성 · 의사결정 기여를 동시에 최대화할 수 있습니다.

Orbitics 주식회사는 본 기사에서 소개한 기술 영역(데이터 분석 · 머신러닝 · MLOps · LLM · RAG · AI 에이전트 등)에 진심으로 임하고 싶은 데이터 사이언티스트를 모집하고 있습니다.

관심이 있으신 분은 저희 홈페이지를 꼭 확인해 주시기 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

예측 AI를 위한 특성 공학(Feature Engineering) 가이드

요약

핵심 포인트

댓글