83개의 기사를 통계 검정했더니, 성과를 낸 것은 제목이 아니라 「AI × 실데이터 분석」이었다

나는 줄곧 두 가지 「Qiita 필승법」을 믿어왔다.

AI 기사를 쓰면 조회수가 오른다 (가장 큰 버즈(Buzz)가 AI 기사였기 때문에) -
제목을 「~은 사실인가?」 유형으로 만들면 오른다 (모두가 사용하고 있기 때문에)

그래서 나의 83개 기사의 실제 PV(Page View)로 이 신념을 통계 검정(Statistical Test)해 보았다.

결과, 믿고 있던 필승법의 절반이 무너졌다.

✅ AI 기사는 강력했다.
단, 「AI 기사 전반」이 아니라 「AI × 실데이터 분석」뿐이었다. -
❌ 「사실인가?」 유형의
반전 프레임 제목은 효과가 없었다 (있어도 없어도 PV는 오차 범위 내).

즉, PV를 결정짓는 것은 제목의 형식이 아니라 내용이었다. 이하, 그 사건 기록이다.

주: 나 혼자 작성한 83개 기사라는 소표본(Small Sample)의 탐색적 분석이다. Qiita 전체의 「법칙」이 아니라 「내 기사의 경향」으로서 읽어주길 바란다.

AI 기사는 확실히 비(非) AI보다 강력하다 (중앙값 1.41배 · 유의성 p=0.001). 하지만 흥미로운 점은 그 다음이다. AI 기사를 카테고리별로 분해하면 풍경이 바뀐다.

비 AI(551)보다 한 발 앞서 있는 것은, AI × 실데이터 분석(882)뿐이다. AI 거버넌스(AI Governance)도 AI 가치론도 AI 구동 개발(AI-driven development)의 현장론도, 비 AI와 거의 비슷했다. 만약 「AI라는 화제」 자체가 인기라면 이것들도 함께 성장해야 한다. 하지만 차이를 만들고 있었던 것은 AI를 실데이터에 부딪힌 카테고리뿐이었다.

그리고 중요한 것은, 버즈 기사(35,000PV 1건)를 제외해도, 기사의 오래된 정도를 보정해도, 결론이 바뀌지 않았다는 점이다. 「한 건의 기적」도 「오래되어서 번 것뿐」도 아니다.

검정의 상세 내용 및 반론 격파 (숫자가 궁금한 사람을 위해)

AI 기사 vs 비 AI의 PV 분포 (중앙값 779 vs 551 · 1.41배 · p=0.001):

반론	검증	결과
버즈 1건 때문 아닌가?	최대 버즈(약 35,000PV)를 제외하고 재검정	AI 기사 중앙값 757 · p=0.002 (여전히 유의미)
오래된 기사라서 번 것 아닌가?	AI는 확실히 오래됨 (중앙값 117일 vs 비 AI 75일) → 성숙 기사(60일 이상)로 한정	AI 862 vs 비 AI 614 · p=0.008 (우위 유지)

from scipy.stats import mannwhitneyu
mannwhitneyu(ai_pv, nonai_pv, alternative="greater")
# AI 기사 vs 비 AI: 중앙값 779 vs 551 (1.41배) / p = 0.0013

카테고리별 중앙값 (본수): A. AI × 실데이터 분석 882 (13) / C. 가치론 709 (5) / D. 현장 692 (6) / B. 거버넌스 669 (5) / Z. 비 AI 551 (51).

다음은 본론이다. Qiita에는 「~은 사실인가?」「~의 정체」「~은 정반대였다」 유형의 제목이 넘쳐난다. 모두(나도 포함) 이 반전 프레임이 강력하다고 믿고 있다.

그래서 제목에 이러한 종류의 훅(Hook) 단어를 포함하는지 여부로 두 집단을 나누어 비교했다.

차이는 없었다. (오히려 훅이 있는 쪽이 약간 더 낮았다.)

정확히 말하면, 훅 단어가 「역효과」인 것이 아니라, 효과가 제로(0)와 통계적으로 구별되지 않는다 (유의차 없음). 자극을 주든 주지 않든 PV는 거의 움직이지 않았다.

내가 기사를 쓸 때마다 가장 많은 시간을 할애했던 것이 제목이었기에, 이 결과는 솔직히 타격이 컸다.

검정의 상세

훅 단어 (사실인가/정체/정반대/~이 아니었다/거짓/오해 ...) 있음 vs 없음의 PV 중앙값: 556 vs 617. 30초 버즈를 제외해도, 카테고리 교란(Confounding)을 배제하고 비 AI 내에서만 비교해도 경향은 같다. 비 AI 내의 Mann-Whitney 검정에서 p=0.43 (유의차 없음).

데이터를 살피다 깨달은 점이 있다. 나의 최대 버즈 제목은 훅 단어를 단 하나도 사용하지 않았다.

AI × Python으로 연구가 "30초 만에 끝나는" 법이 되었다

자극하지 않았다. 「사실인가?」도 없다. 그럼에도 이상할 정도로 조회수가 올랐다. 이유는 단순하다. 독자가 헤드라인을 읽는 순간 **「그럴 수가 있어?」**라고 생각하기 때문이다. 훅은 "말"이 아니라 **"내용의 격차"**에서 태어나고 있었다.

반대로 볼 수도 있다. 내용의 발견이 약한 기사일수록 제목의 자극에 의존했을지도 모른다. 어느 쪽이든 도달하는 결론은 같다.

제목의 형식은 노이즈다. 효과가 있었던 것은 「AI로 실데이터를 다루어, 자신의 전제가 깨졌는가」라는 내용이었다.

나의 성공 경험을 검정해 보았더니, 이렇게 되었다.

믿고 있던 필승법	검정 결과
AI 기사는 강력하다	절반만 정답 ── 강력한 것은 「AI × 실데이터 분석」뿐
「정말인가?」형의 반전 프레임이 효과적이다	오답 ── 오차 범위 내

PV(페이지뷰)를 결정짓고 있었던 것은 헤드라인의 말투가 아니었다. AI로 실데이터를 다루어, 자신의 고정관념이 깨졌는가——단지 그것뿐이었다.

그러므로 내가 다음에 해야 할 일은 「제목의 퇴고」가 아니라 「다시 한번 데이터에 의지하러 가는 것」이다.

다음 예고: 이번에 「AI × 실데이터 분석」이 강력하다는 결과가 나왔다. 그렇다면 그 AI의 분석을 어디까지 믿어도 될까. 다음에는 「AI의 분석 결과를 3개월간 계속 검산했더니, "맞는 것처럼 틀리는" 패턴을 5가지로 분류할 수 있었다」를 쓰겠다. 이번 결론의 바로 뒷면 이야기다.

이 분석의 한계 (맹신하지 않기 위해)

단일 저자 · 소표본: 83개의 기사는 모두 나의 기사다. 테마도 문체도 편향되어 있다.
분류는 주관적: 카테고리도 후크(Hook) 단어 판정도 제목의 정규 표현식(Regular Expression) 기반이라 거칠다.
역인과(Reverse Causality)를 배제하지 못함: 제목과 내용은 독립적이지 않다 (앞서 언급).

p-value(p값)는 「확정적 사실」이 아니라 「경향성의 강도를 나타내는 지표」로 읽어주길 바란다. 그럼에도 「자신의 신념 중 절반은 데이터에 의해 부정되었다」는 사실은 변하지 않는다.

83개의 기사를 통계 검정했더니, 성과를 낸 것은 제목이 아니라 「AI × 실데이터 분석」이었다

요약

핵심 포인트

검정의 상세 내용 및 반론 격파 (숫자가 궁금한 사람을 위해)

검정의 상세

이 분석의 한계 (맹신하지 않기 위해)

댓글