
「AI가 바보가 되었다」라는 의견이 의미하는 것 (Trends와 Reddit으로 측정하는 5축 cascade)
요약
사용자들이 AI 모델의 성능 저하를 체감하는 현상을 Google Trends와 Reddit 데이터를 통해 분석한 연구입니다. 성능 저하라는 막연한 신화보다는 특정 이벤트와 제품 정책 변화가 사용자 정서와 이탈에 결정적인 영향을 미침을 밝혀냈습니다.
핵심 포인트
- AI 비판은 능력, 태만, 인격, 검열, 환각의 5개 축으로 움직임
- 사용자 이탈은 모델 성능 저하보다 감성적 유대 상실과 윤리적 포지셔닝에 의해 촉발됨
- AI 정체기(Plateau) 가설은 실제 데이터상 사용자 정서 악화의 주된 원인이 아님
- 프런티어 연구소의 제품 정책은 사용자 피드백 신호에 민감하게 반응함
본 기사의 개요
「GPT-5가 나온 이후 ChatGPT가 나빠졌다」, 「Claude가 의욕을 잃었다」, 「Gemini가 너무 refuses(거부)한다」. 이러한 집단적 체감을 Google Trends (60 query × 181 주)와 Reddit (42,143 posts)을 조합하여 measurable(측정 가능한) signal(신호)로서 관찰할 수 있는지 검증했습니다.
주요 findings(결과):
- 비판은 단일한 의미가 아니라,
능력 / 태만 / 인격 / 검열 / 환각의 5축으로 움직인다. level(수준)은 축 간에 강하게 상관(Claude 0.96 / GPT 0.73 / Gemini 0.84)되지만, event(이벤트) 응답 shape(형태)는 축마다 다르다 - 3개 provider(제공자)에서 cascade archetype(캐스케이드 원형)이 나뉜다 (OpenAI = single big bang / Anthropic = late accelerator / Google = slow grinder) - GPT-5 launch(출시) + 4o sunset(종료) (2025-08)의 Reddit narrative(내러티브) 중심은 "personal therapist / anime waifu" 계열의
EQ companion(감성 동반자) 상실이며, 이는 능력 비판의 2.5배에 달한다 -
**2026-Q1~Q2 동기 escalation(에스컬레이션)의 주된 원인은 2026-02 Pentagon deal(펜타곤 계약)을 둘러싼 cross-provider ethical positioning cascade(교차 제공자 윤리적 포지셔닝 캐스케이드)**이다. Anthropic이 Pentagon과의 계약을 ethics(윤리) 이유로 거부하고, OpenAI가 수락한 것을 기점으로 48시간 만에 1.5M user churn(사용자 이탈) 논의[1]와 Claude의 Apple App Store 1위 탈취가 일어났다 - 반면 **「AI plateau / scaling wall(AI 정체기 / 스케일링 벽) 신화가 업계 전체의 sentiment(정서) 악화를 구동한다」는 가설은 data(데이터) 상 weak(약함)**했다. Reddit의 plateau(정체기) 관련 게시물은 top(최상위)이라 해도 score(점수)가 1-5k 수준이며, specific event-driven(특정 이벤트 중심) 게시물(10k+)과는 한 자릿수 차이였다. cascade(캐스케이드)는 막연한 업계 신화가 아니라 discrete event(불연속적 이벤트)로 움직인다. - OpenAI가 4o를 24시간 이내에 Plus user(유료 사용자)를 대상으로 부활시킨 사실이 보여주듯, 이 signal(신호)은
frontier lab(프런티어 연구소)의 product policy(제품 정책)를 움직이는 영향력을 가진다
마지막에 배치할 main reframe(주요 재구성):
「AI 모델이 바보가 되었다」고 user(사용자)가 느낄 때, 관찰되고 있는 것은
capability(역량)의 저하가 아니라, user(사용자)가 provider(제공자)와의 관계를 재평가하게 만드는 trigger event(트리거 이벤트)입니다. 본 연구의 data(데이터)를 통해 2가지 mechanism(메커니즘)이 확인되었습니다:
(A) 익숙한 model(모델)을 잃는 경험 (4o sunset → "personal therapist / anime waifu" cascade, Kahneman의 endowment effect(보유 효과)의 sign(징후))
(B) competing lab(경쟁 연구소)으로 갈아타는 정당화 (Pentagon deal에서 Anthropic 거부 / OpenAI 수락 → Claude App Store 1위 달성이라는 cross-provider migration(교차 제공자 이동))
두 cascade(캐스케이드) 모두 AI plateau(AI 정체기) 등의 막연한 신화가 아니라, specific event(특정 이벤트)가 driver(동인)입니다.
상세 내용은 5장에서 2 mechanism(메커니즘) + 공통 귀결 + 예측 demo(데모)의 4단계로 전개합니다.
서론
「GPT-5가 나온 이후 ChatGPT가 바보가 되었다」와 같은 체감 발언은 echo chamber(에코 체임버) 효과로 인해 실태보다 과장된 buzz(버즈)로 보이기 쉬우며, 「체감은 착각이고 benchmark scores(벤치마크 점수)는 변하지 않았다」는 반론도 정기적으로 나옵니다.
하지만 이를 noise (노이즈)로 치부해 버리면 한 가지 중요한 것을 간과하게 됩니다. 2025-08-08에 OpenAI는 24시간 이내에 GPT-4o를 Plus user (플러스 사용자)를 위해 복구시켰습니다. frontier lab (프런티어 연구소) 스스로가 이러한 집단적 체감을 의사결정 input (입력값)으로 취급하고 있는 것입니다. 그렇다면 SNS의 체감 버즈(buzz)는 적어도 product policy (제품 정책)를 움직일 수준의 signal (신호)을 포함하고 있을 것이며, 이는 외부에서 data (데이터)로 관찰할 수 있어야 합니다.
본 기사에서는 이를 Google Trends와 Reddit의 데이터로 실제로 관찰합니다.
1. 가설
조사 전에 세운 가설은 다음 3가지입니다.
H1: AI 모델 품질에 대한 불만은 단일 축 ("intelligence (지능)의 저하")이 아니라, 여러 개의 독립적인 dimension (차원)으로 관찰되지 않을까.
「AI가 나쁘다」라고 말할 때의 "나쁘다"는 단일한 의미가 아닐 것이라는 가정입니다. 능력 저하 (dumber), 태만 (lazy), 인격 상실 (cold), 검열 (woke), 환각 (hallucinating) 등 서로 다른 complaint vocabulary (불만 어휘)를 가질 것이며, 각각 독립적인 dynamics (역학)를 가지는지 확인합니다.
H2: 각 provider (제공자)마다 cascade (캐스케이드)의 형태가 다르지 않을까.
OpenAI / Anthropic / Google의 3개 lab (연구소)은 sentiment cascade (감성 캐스케이드)의 archetype (원형)이 다를 것입니다. 같은 "frontier AI lab"이라 하더라도 user base (사용자 기반), release cadence (출시 주기), 경쟁 positioning (포지셔닝)이 다르기 때문입니다.
H3: 지각 cascade (perceptual cascade)를 구동하는 event (이벤트)는 신모델 release (출시)와 sunset (구모델 deprecation, 폐기) 중 어느 쪽인가.
직관적으로는 「신모델이 나온다」는 이벤트가 backlash (반발)를 부르는 것처럼 보이지만, 정말 그러한가? 아니면 「익숙해진 구모델이 사라진다」는 사전 정보가 지각을 더 강하게 움직이는가? 이를 cascade peak (캐스케이드 정점)와 event (이벤트) 날짜의 lead-lag (선행-후행 관계)로 검증합니다.
실험 경제학에서 확립된 endowment effect (보유 효과) (사람은 한 번 소유하거나 익숙해진 재화를 손에서 놓을 때의 평가가, 동일한 재화를 새로 입수할 때의 평가보다 크게 움직인다)가 AI 모델 사용에도 적용된다면, sunset event (종료 이벤트)가 release event (출시 이벤트)보다 더 강한 signal (신호)이 될 것입니다. 이것이 H3 검증의 이론적 motivation (동기)이 됩니다.
2. 분석 방침
3가지 hypothesis (가설)를 순차적으로 검증하기 위해 다음과 같은 방침으로 진행합니다.
- H1 (다축성)의 검증: Google Trends에서 5개 축 × 각 model (모델) × 각 축 4개 query (쿼리) = 총 60개 query를 추출하여 weekly (주간) 시계열을 얻는다. 축별 spike timing (급증 시점)과 shape (형태)가 독립적인지 관찰한다.
- H2 (provider 별 archetype)의 검증: 5개 축을 등가중 평균한 composite negative-sentiment index (복합 부정 감성 지수)를 모델별로 만들고, release / sunset event timeline (출시/종료 이벤트 타임라인)과 overlay (중첩)한다.
- H3 (release vs sunset)의 검증: composite index (복합 지수)의 local peak (국소 정점)와 provider의 release / sunset event의 lead-lag를 측정한다. peak가 release를 anticipate (예측) / lag (후행) 하는지, sunset을 anticipate / lag 하는지를 통계적으로 분류한다.
- 검증의 corroboration (확증): Google Trends는 주간 해상도로 coarse (거칠기) 때문에, 최대의 cascade event인 GPT-5 launch (출시) + 4o sunset window (종료 기간) 동안 Reddit을 scrape (스크레이핑)하여, narrative origination (내러티브 기원)이 일간 해상도로 관찰 가능한지 확인한다.
3. 데이터 수집
Google Trends (Worldwide weekly interest)
- 기간: 2023-01-01부터 2026-06-18까지, 총 181주
- 수집: pytrends를 통해 수집
- 설계: 각 model × 각 축 × 4 query = 총 60 query. anchor query는 의도적으로 제외함 (anchor를 포함할 경우 anchor가 지배(dominate)하여 부정어 신호(negative signal)가 0으로 뭉개지는 pytrends의 정규화(normalization) 동작을 회피하기 위함)
- 결과: 각 panel은 category 내에서 0-100으로 정규화됨.
cross-axis / cross-model 절대량 비교는 불가. shape과 timing으로 읽는 것을 전제로 함
5개 축의 비판 vocabulary(어휘)는 다음과 같이 정의했습니다.
| 축 | 예상되는 narrative (서사) | 샘플 query |
|---|---|---|
| capability (능력) | general intelligence regression (일반 지능 퇴보) | "X dumber", "X worse", "X nerfed" |
| laziness (게으름) | refusal (거부) / short output (짧은 출력) / "won't do work" (일을 안 함) | "X lazy", "X refused", "X placeholder" |
| personality (성격) | EQ / warmth (따뜻함) / "miss old version" (이전 버전을 그리워함) | "miss 4o", "bring back sonnet", "X cold" |
| censorship (검열) | safety (안전) / refusal (거부) / "woke" (깨어 있는 척함) | "X censored", "X woke", "X refuses" |
| hallucination (환각) | factual unreliability (사실적 불확실성) | "X hallucinating", "X wrong", "X made up" |
Reddit (arctic-shift API)
- 대상: r/ChatGPT, r/OpenAI, r/singularity, r/ArtificialInteligence
- 기간: 2025-07-25부터 2025-09-15까지 (GPT-5 출시 ±5주)
- 결과: 총 42,143 posts (ChatGPT 20.1k, OpenAI 11.2k, AI 7.1k, singularity 3.8k)
- 필터: 5개 축별 정규 표현식 (예: personality 축 =
4o|miss|bring back|personality|warm|cold|companion|therapist|waifu|empath|...)으로 일일 집계
Provider event timeline (제공업체 이벤트 타임라인)
- 소스: OpenAI / Anthropic / Google 각사의 primary source (공식 blog / changelog / model card /
platform.openai.com/docs/deprecations) - 검증: Claude를 사용한 deep-research workflow를 통해 3-vote의 adversarial verify를 수행하였으며, 25개 claim 중 22개가 3-0으로 생존
- 주요 entry: GPT-5 (2025-08-07) 및 4o sunset, Anthropic Claude 4.x 계열의 cadence (Sonnet 4.5 = 2025-09-29, Opus 4.5 = 2025-11-24, Opus 4.6 = 2026-02-05, Sonnet 4.6 = 2026-02-17, Opus 4.7 = 2026-04-16, Opus 4.8 = 2026-05-28), OpenAI 2026-02-13의 ChatGPT 4o-family sunset 등
데이터 규모 summary (데이터 규모 요약)
| metric | GPT | Claude | Gemini |
|---|---|---|---|
| Composite median | 4.4 | 0.1 | 2.1 |
| ... |
Claude는 median 0.1 / weeks-above-13이 16으로, "sentiment(감성)가 낮은 기간이 길고, 상승할 때는 급격한" signature를 보입니다. GPT는 median 4.4로 baseline이 항상 온화하며, event 구동형으로 peak가 나타납니다. Gemini는 그 중간인 grinder(연마기)형입니다.
Reddit (GPT-5 window 2025-07-25 부터 2025-09-15 까지의 53일간):
- 전체 posts 42,143개, 일일 평균 약 800 posts
- 그 중 cascade-keyword hit (5개 축 중 하나에 해당)는 ChatGPT에서 31.5%, OpenAI에서 28% 전후
- Event 직전 (8/8)은 일일 1,000 posts / score sum 68k로 평상시 baseline의 5배 이상
4. 분석과 결과
4-1. H1 검증: 비판은 확실히 5개 축으로 움직인다
각 model × 축의 시계열을 보면, 축마다 spike (급증)의 timing (시기)과 shape (형태)가 명확히 다르다는 것을 알 수 있습니다. GPT-5 launch (출시) + 4o sunset (종료) 주변의 8개월 zoom (확대) 사례를 예로 들겠습니다.

| 축 | 주요 query (질의) | peak value (주간) | offset from launch (출시로부터의 편차) |
|---|---|---|---|
| personality | gpt-5 cold | 100 | +4 days |
| laziness | chatgpt refused | 85 | +4 days |
| laziness | chatgpt lazy | 100 | +5 days |
| censorship | openai censorship | 81 | +5 days |
| ... | ... | ... | ... |
Hallucination (환각) 축의 -1 day offset은 출시 전에 peak (정점)를 찍는 pattern (패턴)으로, 4-4에서 상세히 설명할 pre-launch leak (출시 전 유출) / anticipation (기대) 현상과 일치합니다.
5개 축 모두가 동일한 event (이벤트)에 대해 동기화된 spike를 보이는 것은 특이한 event (4o sunset)의 사례이지만, 더 중요한 것은 형태의 차이입니다.
- Personality (성격) 축 (gpt-5 cold): 단발성 burst (폭발), 출시 직후 1-2주 내에 100에 도달하고 4주 후에는 거의 소멸 (petition (청원) 형태)
- Laziness (게으름) 축 (chatgpt lazy): 100까지 상승한 후 4개월 이상 50-70 사이에서 sustained (지속)
- Capability (능력) 축 (chatgpt worse): 60-70까지 상승했다가 완만하게 decay (감쇠), 6개월 후에도 20-30 수준으로 잔존
- Hallucination (환각) 축: event (이벤트) 전후로 크게 움직이지 않는 steady-state (정상 상태)
즉, 비판 axis (축)마다 반감기가 크게 다릅니다. Personality는 강하지만 단명하고, laziness는 약하지만 장명하며, hallucination은 event (이벤트) 구동형이 아닌 chronic complaint (만성적 불만)입니다. 이는 H1 (다축성)을 강력하게 지지합니다. 비판 vocabulary (어휘)는 단일한 의미가 아니라, 독립된 dimension (차원)의 vector (벡터)였습니다.
덧붙여, personality 축의 "gpt-5 cold" / "bring back 4o" 계열 spike는 2023~2026년 전체 기간과 모든 provider (제공자) 중에서 오직 이 event (이벤트)에서만 발생했음을 확인했습니다. 이는 3개 provider × 5개 축 × 각 4개 query의 time series (시계열)를 전체 기간 동안 육안으로 스캔하여, "bring back X" / "miss X" / "X cold" 계열 query에서 50개 이상의 isolated peak (고립된 정점)가 GPT-5/4o sunset 이외에는 관찰되지 않음을 확인한 결과입니다 (Claude 3.5 Sonnet의 구버전→신버전 교체, Bard → Gemini rebrand (리브랜딩) 등의 국면에서도 personality 축의 isolated burst는 관찰되지 않았습니다). EQ companion (감성 동반자) 상실에 대한 집단적 반응은 GPT-4o sunset에 특유한 현상이었다고 할 수 있습니다.
축 독립성 보충: shape (형태)는 독립적, level (수준)은 강한 상관관계
여기서 H1을 honest (정직)하게 평가하기 위해, 축 간의 Pearson correlation (피어슨 상관계수)을 산출했습니다.

| provider | 축 간 off-diag 상관계수 절대값 평균 |
|---|---|
| GPT | 0.73 |
| ... | |
| level (overall negativity의 높이)은 강한 상관관계를 보입니다. 특히 Claude는 축 간 상관관계가 거의 모두 0.93+로, 사실상 1 factor (요인) 구조 ("불만이 있으면 모든 축에서 동시에 발생"하는 유형)입니다. GPT는 personality 축만이 타 축과의 상관관계가 0.41-0.61로 독립도가 높으며 (이는 앞서 언급한 4o sunset 단발 burst가 타 축과 decoupled 되어 발생한 것의 결과입니다), 타 축은 0.76-0.94입니다. Gemini는 그 중간입니다. |
따라서 H1 「축 독립성」은 level (높이) 측면에서는 Claude에서 사실상 반증, GPT에서 부분적 지지, Gemini에서 중간 단계로 나타납니다. 반면 shape (event 응답의 timing과 반감기)는 명확히 독립적이며, 이는 앞서 언급한 petition burst (personality) / sustained (laziness) / steady-state (hallucination)의 geometry 차이로 관찰된 바와 같습니다.
즉, sentiment (감성)의 구조는 "하나의 common negativity factor가 overall level을 상하로 움직이고, 그 위에 축별 event 응답 shape가 얹혀 있는 형태"라고 이해하는 것이 타당할 것입니다. 이는 「5축 독립」이라는 단순한 framing보다 더 rich (풍부)한 structure (구조)입니다.
Claude 0.96이 structural (구조적)임을 확인
Claude의 0.96이 단순히 signal (신호)이 희박한 기간이 길어서 나타나는 artifact (인위적 결과; 낮은 variance로 인해 인위적으로 높은 상관관계가 나타남)가 아닌지 의심하여, 3가지 control test (대조 테스트)를 수행했습니다.
| test | GPT | Claude | Gemini |
|---|---|---|---|
| Full period | 0.73 | 0.96 | 0.84 |
| Pre-2025-09 만 | 0.74 | 0.77 | 0.37 |
| Post-2025-09 만 (동일 기간 control) | 0.62 | 0.94 | 0.64 |
| High-signal weeks 만 (composite p75 이상) | 0.44 | 0.94 | 0.57 |
특히 주목해야 할 점은 high-signal weeks 만을 대상으로 한 test입니다. GPT는 spike (급증) 기간에 축 간 상관관계가 0.73에서 0.44로 저하되었으며 (event마다 서로 다른 축이 활성화됨 = event-specific axis activation), Gemini 역시 0.84에서 0.57로 저하되었습니다. 반면 Claude만은 spike 기간으로 한정해도 0.94를 유지하고 있어, 구조적으로 "불만이 있을 때는 모든 축이 동시에 발생하는" 유형임이 robust (강건)하게 입증됩니다.
가능한 해석은 여러 가지가 있으나, 본고의 데이터만으로는 범위를 좁힐 수 없으므로 미해결 과제로 남겨둡니다:
- User base (사용자층) 성격: Claude 사용자는 기술 / coding 중심이라 use case (사용 사례)의 폭이 타 lab (연구소)보다 좁아, 불만 발생 시 여러 축으로 동시에 파급되기 쉬움
- Discourse coherence (담론 일관성): r/ClaudeAI 등은 r/ChatGPT보다 규모가 작아 narrative (서사)가 consolidate (통합)되기 쉽고, 축별 논의가 분기되기 어려움
- Training synchrony (학습 동기화): Claude 4.x의 RLHF (인간 피드백 기반 강화학습)가 "globally coherent" 하여, 특정 축에서 degrade (저하)되면 타 축도 동시에 degrade 되기 쉬운 구조
어느 쪽이든, "동일한 frontier AI provider 임에도 Claude만은 perception (인식) 상의 negativity가 1 factor화 되어 있다"는 현상 자체를 관찰할 수 있으며, 이는 provider별 archetype (원형) (5-3)을 구조화하는 추가 dimension (차원)이 됩니다.
4-2. H2 검증: Provider별 archetype이 갈리는 양상
먼저 provider × 축의 strong-peak count (강한 피크 횟수)를 radar chart (레이더 차트)로 나타내면, 3개 lab 각각의 "criticism profile fingerprint (비판 프로필 지문)"가 직관적으로 드러납니다.

| 축 | GPT | Claude | Gemini |
|---|---|---|---|
| capability (능력) | 8 | 3 | 5 |
| laziness (게으름) | 26 | 9 | 28 |
| personality (개성) | 1 | 7 | 19 |
| censorship (검열) | 9 | 4 | 5 |
| hallucination (환각) | 10 | 8 | 7 |
GPT는 laziness(게으름) 축이 돌출(26 peaks)되어 있으며, personality(개성)는 거의 없습니다(1). Gemini는 laziness와 personality가 모두 높습니다(28, 19). Claude는 전체적으로 분산되어 있으나 peak 수 자체는 적습니다 (provider별 data window 길이 및 user base 차이를 포함하는 caveat(주의 사항) 있음).
다음으로 composite sentiment index(종합 감성 지수)에 release / sunset event overlay(출시/종료 이벤트 오버레이)를 얹으면, cascade(폭포 효과)의 시계열 형태가 provider별로 다르다는 것을 볼 수 있습니다.

각 provider의 상세 내용은 다음과 같습니다.
OpenAI (GPT): single big bang(단일 빅뱅)형

Stanford 논문 (2023-07), lazy December (2023-12), GPT-4o (2024-05), o1 계열, GPT-4.5, o3+o4-mini까지 composite는 5를 넘지 않습니다. 2025-08-07 GPT-5 출시(launch) + 4o 종료(sunset)로 인해 composite가 4에서 26으로 점프(5배 이상)합니다. 이후 pre-spike baseline(급증 전 기저치)으로 돌아오지 않고, 2026-05-31에 다시 peak 29를 기록합니다. 단일 이벤트에 의해 구동되는 reputational regime shift(평판 체제 전환)로 읽을 수 있습니다.
Anthropic (Claude): late accelerator(후기 가속)형

Claude 2에서 3, 3.5, 3.7, Claude 4에 이르기까지 composite는 5 미만으로 평탄(flat)합니다. 2025-09-29 Sonnet 4.5 이후 급가속하여, 2026-04에 composite 32까지 도달합니다. Claude 계열 내에서 보면 늦게 시작하지만 급격하게 가속하는 후발 cascade dynamics(폭포 효과 역학)를 보이며, pre-spike baseline → post-launch saturation(출시 후 포화)의 변동 폭이 큽니다 (cross-provider 절대량 비교는 본 연구의 measurement design(측정 설계)에서는 성립하지 않으므로, shape(형태)로서 읽습니다).
Google (Gemini): slow grinder(느린 연마)형

Bard 시기 (2023)는 baseline이며, Gemini Advanced + image-gen controversy (이미지 생성 논란) 2024-02에 censorship(검열) 축이 고립되어(isolated) spike(급증)합니다. 2025-Q3 이후 단계적으로 가속하며 여러 inflection point(변곡점)를 가집니다. laziness(게으름) 축 단독으로 50+에 달하며 다른 축을 크게 앞지릅니다. "Gemini = lazy / refuses too much(게으름 / 너무 많이 거부함)"가 community narrative(커뮤니티 내러티브)의 dominant frame(지배적 프레임)으로 정착되어 있습니다.
3개의 lab이 동일한 frontier AI를 만들고 있음에도 cascade의 dynamics는 서로 다른 형태를 취하므로, H2 (provider별 archetype(원형)) 또한 지지됩니다.
4-3. H3 검증: cascade peak와 event의 lead-lag
composite local peak (composite > 13)와 provider event의 lead-lag(선행-후행 관계)를 구하면 다음과 같습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기