본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 22. 10:44

미세한 유의차를 검출하는 기법 "PWTAB"의 검증

요약

기존 A/B 테스트 기법이 포착하기 어려운 미세한 유의차를 검출하기 위한 새로운 기법 'PWTAB'를 소개합니다. Strategic Central Limit Theorem과 2-Armed Bandit 알고리즘을 결합하여 효과의 유무를 더 섬세하게 식별하는 방법을 다룹니다.

핵심 포인트

  • 기존 t-검정 등은 미세한 효과 검출에 한계가 있음
  • Strategic Central Limit Theorem 개념을 통한 분포 변화 유도
  • 2-Armed Bandit 알고리즘을 활용한 자기 강화 메커니즘 적용
  • 위양성(False Positive)을 제어하며 미세한 효과 증폭 가능

서론

처음 뵙겠습니다. DMM.com에서 데이터 분석가(Data Analyst)로 일하고 있는 코이즈미입니다.

저희 회사에서는 많은 사업 성장(Growth) 전략을 AB 테스트(A/B Test) 형태로 검증하며, 유의차 검정(Significance Test)을 이용해 전략의 평가를 수행하고 있습니다.

하지만 사업이 성숙함에 따라, 간단하게 사업 KPI를 크게 리프트(Lift)시킬 수 있는 전략은 아무래도 줄어들 수밖에 없습니다.

그 결과, 기존의 검정 기법으로는 평가하고 싶은 작은 차이를 통계적으로 식별해내지 못하는 상황에 직면하는 경우가 많아졌습니다.

거대한 사용자 수나 매출을 보유한 서비스에서는, 기존 기법으로는 '오차'로 치부될 수 있는 아주 미세한 개선이라도 수백만 엔, 수천만 엔의 증수로 이어지기 때문에, 이를 쉽게 놓치는 것은 바람직하지 않습니다.

이 상황을 분석 기법 측면에서 개선하기 위해, 더욱 미세한 차이라도 유의차로서 검출할 수 있는 기법이 필요해지고 있습니다.

본고에서는 유사한 문제 의식에서 제안된 논문 "Strategic A/B testing via Maximum Probability-driven Two-armed Bandit"의 내용을 파헤치고, 실험 데이터 및 실무 데이터로 검증한 내용을 소개하고자 합니다.

논문 개요

논문의 요점을 번역 및 해설합니다.

※ 장 구성 1, 2에서는 제안 기법의 핵심을 해설하고, 3, 4, 5에서는 구현 요약을 담고 있으므로 전반부만 이해하셔도 문제없습니다.

1. 전제

기존 기법인 기초적인 평균 차이 검정 (t-검정 (t-test)), 성향 점수법 (Propensity Score Method), 이중 강건 추정법 (Doubly Robust Method) 등은 데이터의 교환 가능성(Exchangeability)이나 i.i.d. (독립 동일 분포)라는 전제하에, 중심한계정리 (Central Limit Theorem)에 의한 정규 분포 근사에 의존하고 있습니다.

이러한 기법들에서는 효과가 작거나 목적 변수의 변동성이 큰 경우, 귀무가설 하의 분포와 대립가설 하의 분포가 크게 겹쳐버려 효과를 검출하기 어려워집니다.

그림 1 : 중심한계정리에 기반한 검정에서의 분포 이미지

이에 반해, 이 논문에서는 데이터를 독립적으로 다루는 것을 그만두고, 새롭게 **전략적 중심한계정리 (Strategic Central Limit Theorem)**라는 개념을 정의함으로써 '개입 효과의 정도'를 측정하는 것을 희생하는 대신 '개입 효과의 유무'를 더욱 섬세하게 검출하는 방법을 제안합니다.

그림 2 : 전략적 중심한계정리의 그래프 (논문 그림 1 변형)

  • 진정한 효과가 있는 경우에는 통계량이 0 주변에 머물기 어려워지며, 양(+) 또는 음(-)의 방향으로 떨어진 이봉 분포 (Bimodal Distribution)가 됩니다.
  • 진정한 효과가 없는 경우에는 통계량이 0 주변에 집중됩니다.

2. 2-Armed Bandit를 통한 자기 강화 메커니즘 (2.2장, Lemma 2.1)

전략적 중심한계정리를 실현하는 기법으로서, 다음과 같은 2-Armed Bandit 알고리즘을 사용하여 통계량을 생성합니다.

  • 직전까지의 통계량 누적합이 '양(+)'이면, 새로운 전략의 효과를 그대로 가산한다.
  • 직전까지의 통계량 누적합이 '음(-)'이면, 새로운 전략의 효과의 부호를 반전시켜 가산한다.

이 메커니즘을 통해, 진정한 효과가 있는 경우(...

반대로, 진정한 효과가 없는 경우(...

이를 통해 효과가 없는 경우의 위양성 (False Positive)을 제어하면서, 미세한 효과가 가져오는 차이의 증폭을 실현하고 있습니다.

그림 3 : 진정한 효과가 있는 경우와 없는 경우의 이미지

  • 통계량이 진정한 효과가 있는 경우에는 0에서 떨어진 값으로, 진정한 효과가 없는 경우에는 0 주변에 집중되는 모습을 보이며, 이것이 그림 2의 분포를 형성합니다.

$\lambda$에 의한 밸런스 조정 (3.1장, 4.1장)

  1. 통계량의 구성과 이 프레임워크에서 계산되는 통계량

4. 실데이터에 대한 적용 ① Doubly Robust 추정량 (3.1장, 4장 Assumption 2)

실제 AB 테스트에서는 반사실 (Counterfactual)을 관측할 수 없기 때문에, LightGBM이나 XGBoost와 같은 머신러닝 모델을 이용한 Doubly Robust 추정량을 사용하여 각 사용자의 개별 처치 효과 (Individual Treatment Effect)를 추정하여 대체합니다.

CUPED와 같은 선형 모델의 가정과는 달리, 결정 트리 (Decision Tree) 기반 알고리즘을 사용함으로써 비선형적인 관계를 포착하여 더욱 효과적으로 분산을 축소할 수 있습니다. 또한 Assumption 2의 조건에 따라, 결과 예측 모델 또는 성향 점수 모델 중 어느 한쪽이 올바르게 지정되어 있다면 일치성 (Consistency)을 가집니다. 무작위화 AB 테스트에서는 성향 점수가 고정값이 되기 때문에, 결과 예측 모델의 정밀도가 낮더라도 위양성 제어가 파괴되지 않는다는 보장을 얻을 수 있습니다.

5. 실데이터에 대한 적용 ② 순열과 코시 결합 (3.2장)

과거 이력에 의존하여 분기하는 알고리즘의 특성상, 완전히 동일한 데이터라 하더라도 처리하는 순서에 따라 최종적인 p 값 (p-value)이 크게 변동될 수 있다는 문제가 있습니다.

이를 해결하기 위해, 제안하는 방법론에서는 데이터를 무작위로 섞어서 검정을 반복하고, 의존 관계가 있는 여러 p 값에도 적용하기 쉬운 코시 결합 (Cauchy combination)을 사용하여 하나의 집약된 p 값을 출력합니다.

PWTAB는 이상의 로직을 통해, 위양성 (False Positive)을 억제하면서도 기존의 t 검정 (t-test)이나 CUPED를 상회하는 검출력 (Power)을 실현할 수 있다고 주장합니다.

생성 데이터 및 실무 데이터에서의 검증

TensorFlow Datasets에서 공개된 AB 테스트 데이터를 일부 가공한 것을 사용하여, 실제로 더 높은 검출력을 발휘할 수 있는지 실험을 진행합니다.

논문 5장에서 수행된 비교를 발췌하여,

  • DIM (단순한 t 검정)
  • CUPED
  • PWTAB (제안 방법론)

각각에 대해 검정을 수행하고 결과를 비교합니다.

생성 데이터 개요

고객에게 뉴스레터를 보낸 경우와 보내지 않은 경우에 대해, 사후 구매 금액에 변동이 있는지를 조사하는 AB 테스트 데이터입니다.

(실제로는 ABC의 3개 군으로 나누어져 있으나, 가공하여 AB 간의 비교로 취급합니다)

【주의 사항】

고객에게 뉴스레터를 보내 전환 (Conversion)을 유도한다는 시책의 구조상, 시책 후에 관측되는 spend, conversion, visit는 극단적으로 0에 치우친 분포를 가집니다. 또한 AB 테스트 결과로서 t 검정에서도 명확한 유의차를 보이고 있어 그대로는 검증에 적합하지 않았습니다. 따라서 목적 변수는 원본 데이터의 공변량 (Covariate)을 바탕으로 이번 목적에 맞게 생성한 것을 사용합니다.

구현 방법

각 방법론에 대해 다음과 같이 구현합니다.

DIM (단순한 t 검정)

scipy.stats.ttest_ind를 사용하여 Welch의 t 검정을 수행합니다.

CUPED

목적 변수의 사전 값인 history를 공변량으로 사용하여 분산 감소 (Variance reduction)를 수행하고, 조정된 목적 변수에 대해 Welch의 t 검정을 수행합니다.

CUPED 자체에 대한 해설은 여기서는 생략하지만, 아래의 원문 논문이나 booking.com의 실전 기사가 참고가 되므로 확인해 보시기 바랍니다.

PWTAB (제안 방법론)

공변량을 사용하여 이중 강건 추정량 (Doubly Robust estimator)으로 개체 수준의 처치 효과 (Treatment effect)를 산출하고, WTAB 통계량에 입력합니다.

사용하는 공변량은 목적 변수의 사전 값에 해당하는 history만을 사용하는 패턴과, 준비된 모든 공변량을 사용하는 패턴의 두 가지를 구현합니다.

p 값은 논문의 Algorithm 1에 따라, DR 추정량을 무작위로 섞어 25회 WTAB 통계량을 계산하고, 얻어진 여러 p 값에 대해 코시 결합을 사용하여 산출합니다.

검증 결과

개입 효과 있음/없음의 2가지 조건으로 데이터를 생성하여, 각각 1,000회씩 검정을 실행했습니다. 실제 개입 효과가 있을 때의 기각률을 검출력으로, 실제 개입 효과가 없을 때의 기각률을 위양성률로 집계했습니다.

방법론검출력위양성률
DIM45.4%4.5%
...
  • CUPED와 PWTAB 모두 DIM보다 높은 검출력을 발휘하고 있으며, 특히 PWTAB에서는 12.6pt의 대폭적인 향상이 관찰됩니다.
  • 위양성률 또한 DIM이나 CUPED와 비슷한 수준으로, 검출력의 향상이 파괴 없이 달성되었습니다.

다음은 1,000개의 샘플 p 값을 누적 분포로 플롯한 것입니다.

그림 4: p 값의 누적 분포

  • 실제 효과가 있는 경우 PWTAB의 p 값은 t 검정이나 CUPED보다 낮은 값에 분포가 치우쳐 있는 모습을 확인할 수 있습니다.
  • 실제 효과가 없는 경우 PWTAB의 p 값은 p < 0.5 범위에서 t 검정과 마찬가지로 균등 분포 (Uniform distribution)를 이룹니다.
  • PWTAB는 정방향 효과를 검출하도록 설계되어 있어, 추정된 평균 효과가 음수 값이 되는 경우에는 p 값이 1에 가까워지는 경향이 있습니다. 다만, 큰 p 값 영역은 유의차 판정이나 해석의 대상이 되지 않으므로 실무상의 문제는 없다고 할 수 있습니다.

또한 다음은 무작위로 추출한 30개의 샘플에 대해, t 검정과 PWTAB 각각의 p 값을 슬로프 차트 (Slope chart)로 표현한 것입니다.

동일한 샘플에 대해 PWTAB의 p 값이 더 작은 경우는 파란색, 반대의 경우는 빨간색으로 그렸습니다.

그림 5: DIM 단측 검정과 PWTAB의 p 값 비교

  • 실제 효과가 있는 경우에는 PWTAB가 더 작은 p 값 (p-value)을 출력하기 쉬운 경향을 확인할 수 있습니다.
  • 실제 효과가 없는 경우에는 명확한 경향이 나타나지 않습니다.

PWTAB가 DIM보다 실제 효과에 대해 더 민감하게 반응하면서도, 위양성 (False Positive)을 증가시키지 않는 데 성공했음을 확인할 수 있습니다.

보충: 실무 데이터에서의 검증

실제로 당사 사업에서 진행한 AB 테스트 데이터를 통해서도 동일하게 검증을 수행합니다.

다음의 Case 1 ~ Case 3는 당사 서비스에서 UI 변경을 실시한 AB 테스트 데이터로, 메인 KPI인 방문당 매출 (ARPU)에 대해 유의차 검정 (Significance Test)을 실시했을 때의 p 값을 확인한 것입니다.

PWTAB의 공변량 (Covariate)에는 ARPU의 사전값만을 사용한 패턴과, 방문 상황 및 회유 상황, 구매 내용을 고려한 패턴의 두 가지를 검증하고 있습니다.

Case 1Case 2Case 3
DIM0.04060.3350
...

이것들은 실무 데이터이므로 실제 효과의 유무는 불분명하지만, 기존 기법에서 작은 p 값이 나오고 있는 Case 1이나 Case 3에서는 PWTAB에서도 동일한 수준 또는 더 작은 p 값이 나오고 있어, 실무 데이터상에서도 논문에서 기대했던 방향의 거동이 관찰되었습니다.

또한, 실험에 사용된 생성 데이터에 비해 목적 변수의 사전값에 대한 설명력이 높기 때문에, CUPED의 분산 감소 (Variance Reduction) 효과도 발휘되고 있을 가능성이 있습니다.

마치며

생성 데이터 실험을 통해, 설명력을 가진 공변량을 확보할 수 있는 데이터라면 t-검정 (t-test)보다 높은 검출력 (Statistical Power)을 확보할 수 있음을 확인했습니다.

실제 데이터에서도 기대한 대로의 출력이 확인되었으며, 실무 운용을 검토할 수 있는 기법이라고 할 수 있습니다.

단, 어디까지나 p 값은 확률에 기반한 하나의 지표일 뿐입니다. 여러 기법의 도입에 따라 숫자의 의미가 모호해지거나 p-hacking이 발생하는 것을 방지할 수 있도록, 신중한 의사결정 방법이 요구됩니다.

본 글이 고민하는 데이터 분석가 여러분께 도움이 되기를 바랍니다.

부록: 구현 코드

가지고 계신 데이터로 PWTAB를 검증할 수 있는 샘플 코드를 기재합니다.

import numpy as np
from scipy.stats import norm
from sklearn.model_selection import KFold
...

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0