AI를 활용해 AI 관련 보고서를 작성한 KPMG, 그들이 우스꽝스러워 보이게 만든 방법

책임감 있게 AI를 사용하는 방법을 알려주면서 돈을 받는 회사들이 있습니다.

KPMG가 바로 그런 곳 중 하나입니다.

25만 명의 직원. 138개국. 수십 년 동안 정부와 기업들에게 값비싼 실수를 피하는 방법에 대해 자문해 왔습니다.

그들은 2025년 10월에 'Total Experience: Redefining Excellence in the Age of Agentic AI'라는 제목의 보고서를 발표했습니다.

이 보고서는 AI를 사용해서 작성되었습니다.

AI가 출처의 88%를 만들어냈습니다.

아무도 내용을 검증하지 않았습니다.

그럼에도 불구하고 그들은 이 보고서를 발표했습니다.

// 'agentic AI'란 무엇인가? — 제목이 중요한 이유

Agentic AI는 챗봇(chatbot)이 아닙니다. 질문에 답해주는 어시스턴트도 아닙니다. 인간의 승인을 매 단계마다 받지 않고 스스로 결정을 내리고 행동을 실행하는 시스템입니다. 사용자가 목표를 제시하면, 그 시스템은 행동하고, 수정하며, 앞으로 나아갑니다.

이것이 2025년 기술 분야 모든 사람이 판매하던 제품이었습니다.

KPMG 역시 이것을 팔고 있었습니다.

그렇기 때문에 클라이언트들이 이미 그것을 사용하고 있다는 것을 증명하는 보고서가 필요했던 것입니다.

스포일러: 그들은 그렇지 않았습니다. 그럼에도 불구하고 이 보고서는 내용을 꾸며냈습니다.

// 포렌식 분석

AI 생성 콘텐츠 탐지 전문 기업인 GPTZero가 해당 보고서에 대한 전체 감사를 실시했습니다.

먼저, 'AI 환각(hallucination)'이 무엇인지 알아야 합니다. 이 용어가 많이 등장할 것이기 때문입니다.

언어 모델은 요청한 정보가 없을 때

// 보고서를 읽고 "그건 우리 이야기가 아니다"라고 말한 조직들

Financial Times는 성공 사례로 나열된 기업들에 연락을 취했습니다.

UBS — 거짓.

NHS United Kingdom — 거짓 또는 오도함 (misleading).

Swiss Federal Railways — 거짓.

Transport for London — "오도함 (misleading)."

Transport for London은 자신들이 혼잡을 예측하고 네트워크를 조정하기 위해 AI 에이전트 (AI agents)를 사용하고 있다는 주장이 _오도적 (misleading)_이라고 밝혔습니다.

NHS Greater Manchester는 환자 기록을 정리하고 병원 재입원을 예측하기 위해 에이전트형 AI (agentic AI)를 사용한다는 설명이 현실과 _"정말로 일치하지 않는다"_고 말했습니다.

KPMG는 허구의 내용에 해당 기업들의 로고를 허가 없이 사용했습니다.

그리고 그들을 성공 사례로 청구했습니다.

// 이 문제가 어떻게 작동하는지를 가장 잘 보여주는 오류

모델은 에이전트형 AI (agentic AI)를 사용하는 기업의 사례를 찾도록 지시받았습니다.

모델은 충분한 사례를 찾지 못했습니다. 왜냐하면 많은 분야에서 그러한 사례가 아직 존재하지 않기 때문입니다.

그래서 모델은 가장 편한 방법을 택했습니다. 바로 그것들을 생성해낸 것입니다.

모델은 2019년의 동일본 철도 (East Japan Railway) 보도 자료를 에이전트형 AI (agentic AI) 도입의 증거로 인용했습니다.

_에이전트형 AI (agentic AI)_라는 용어는 2024년 전까지 공공 담론에 존재하지 않았습니다.

모델은 시간을 5년 전으로 거슬러 올라가, 관련 없는 문서를 재구성한 뒤, 아직 일어나지 않은 일에 대한 증거로 제시했습니다.

이것은 단순한 오류가 아니었습니다. 프롬프트 (prompt)에 대한 가장 쉬운 답변이었던 것입니다.

모델은 발명하는 것과 기억하는 것의 차이를 이해하지 못합니다. 모델은 적절해 보이는 것을 생성합니다. 만약 존재하지 않는다면, 그것을 만들어냅니다. 그리고 실제 사례를 인용할 때와 똑같은 유창함으로 이를 수행합니다.

// 바이브 사이팅 (vibe citing) — 이 문제에 빠져있던 이름

GPTZero는 이 용어를 만들어냈습니다: 바이브 사이팅 (vibe citing).

이를 이해하려면 먼저 _바이브 코딩 (vibe coding)_을 이해해야 합니다. 이는 코드가 무엇을 하는지 이해하지 못한 채 코드를 작성하는 것을 의미합니다. AI에게 코드를 생성하도록 요청하고, 그것을 복사하고, 대략적으로 작동하면, 단 한 줄도 읽지 않고 다음 단계로 넘어가는 것입니다. 분위기 (vibe)는 맞지만, 이해도는 제로입니다.

바이브 사이팅 (vibe citing)은 참고 문헌 (bibliography)을 가지고 하는 똑같은 행위입니다.

모델은 수백만 편의 논문을 처리했기 때문에 학술적으로 들리는 참고 문헌을 생성합니다. 구조는 정확합니다. DOI (Digital Object Identifier) 형식도 정확합니다. 연도도 맞습니다.

하지만 내용은 허구입니다.

그리고 책임감 있는 AI (responsible AI) 컨설팅 분야에서 세계 최대 규모인 이 기업은 발행 전 단 하나도 검증하지 않았습니다.

def verify_sources(citations):
    # TODO: 발행 전에 구현할 것
    pass
...

이것은 기술적인 오류가 아닙니다.

이것은 프로세스에 대한 결정, 혹은 프로세스의 부재입니다.

// 보고서가 스스로 모순되는 순간

태만을 거의 시적인 수준으로 만드는 디테일이 하나 있습니다.

보고서는 CEO의 55%가 AI를 주요 투자 우선순위로 꼽는다고 주장하며 "KPMG 연구"를 인용합니다.

같은 달, 같은 회사에서 발행된 KPMG 2025 CEO Outlook 보고서에는 **71%**라고 명시되어 있습니다.

모델은 단순히 외부 출처를 지어낸 것이 아닙니다.

모델은 자신을 사용하고 있는 회사의 데이터를 지어냈고, 같은 기간 해당 회사의 실제 데이터와 모순되는 내용을 만들어냈습니다.

KPMG는 KPMG 보고서 내에서 KPMG를 잘못 인용했습니다.

// 에미레이트 항공 사례: 세 가지 주장, 중요한 부분은 단 하나도 맞지 않음

42페이지.

KPMG는 에미레이트 항공(Emirates)이 승객과 대화하고 항공편을 변경할 수 있는 Sara라는 이름의 모바일 챗봇을 도입했다고 주장합니다.

실제 상황:

Sara는 챗봇이 아니라 **물리적 로봇 (physical robot)**입니다.
이는 2023년에 도입되었으며, 에이전트적 능력 (agentic capability)은 없습니다.
항공편을 변경할 수 없습니다.

세 가지 주장 중 중요한 부분은 단 하나도 맞지 않았습니다.

모델은 Sara에 대한 실제 정보를 가져와서, 자신이 필요로 하는 서사에 맞게 재구성한 뒤, 이를 에이전트적 AI (agentic AI)의 성공 사례로 제시했습니다.

이것은 글쓰기 오류가 아닙니다. 실제 데이터를 비계 (scaffolding)로 사용하여 허구를 구축한 것입니다.

// 이는 KPMG만의 문제가 아니라 산업 전체의 문제입니다

이 지점에서 이것은 고립된 기업 스캔들이 아니게 됩니다.

GPTZero는 몇 달 동안 동일한 패턴을 기록해 왔습니다:

딜로이트 (Deloitte) — 호주 정부가 비용을 지불한 보고서에 포함된 AI 생성 콘텐츠. 결국 환불 처리됨.
EY — 조작된 각주가 있는 보고서. 2026년 5월에 철회됨.
KPMG — 이번 사례.

연속된 몇 달 동안 빅 포 (Big Four) 중 세 곳에서 발생했습니다.

모두 책임감 있는 AI 컨설팅을 판매하고 있습니다.

모두 환각(hallucinations)을 연구 결과로 발표하고 있습니다.

이 패턴은 우연이 아닙니다. 시장의 압력입니다: 고객은 보고서를 원하고, 보고서는 데이터가 필요하며, 그 데이터는 아직 존재하지 않기 때문에 모델이 생성하고, 아무도 검증하지 않습니다. 왜냐하면 검증에는 시간이 걸리고 고객은 이미 비용을 지불했기 때문입니다.

문제가 AI 자체가 아닙니다.

당신보다 더 많이 아는 것처럼 보이려는 경제적 유인(economic incentive)이야말로 문제입니다.

// 아무도 언급하지 않는 피드백 루프

거의 어떤 언론 매체도 논하지 않는 데이터 포인트가 있습니다.

KPMG 보고서의 허위 통계가 이미 ChatGPT와 Gemini에 의해 재현되고 있습니다.

이것이 왜 단순히 일화적인 것이 아니라 구조적으로 심각한 문제인지 설명해야 합니다.

몇 달 동안 이 보고서는 KPMG의 도메인에서 게시되었습니다. 언어 모델에 데이터를 공급하는 크롤러들은 권위(authority)에 따라 출처를 색인합니다. KPMG는 최대의 권위를 가지고 있습니다: 글로벌 기업, 오래된 도메인, 수백만 건의 방문 기록, 수십 년간의 제도적 신뢰도.

모델들은 그 콘텐츠를 검증된 진실로 흡수했습니다.

이제 누군가 ChatGPT나 Gemini에게 에이전틱 AI(agentic AI) 도입에 대해 물으면, 출처 표기 없이, 경고 없이, 보고서의 허위 데이터를 자신의 지식인 것처럼 반환할 수 있습니다.

전체 순환 과정은 다음과 같습니다:

모델이 환각한 데이터
    → KPMG가 검증 없이 게시
        → 크롤러들이 이를 고권위 출처로 색인
...

고권위 출처 + 허위 데이터 + 모델 흡수 = 추적 불가능한 허위 정보(untraceable disinformation).

출처를 추적할 수 없습니다. 출처를 소독할 수도 없습니다. 이 오류는 이미 여러분이 매일 상담하는 모델 안에 살고 있습니다.

그리고 그 보고서는 이미 철회되었습니다. 하지만 데이터는 계속 순환하고 있습니다.

PDF 파일을 내렸다고 해서 색인이 사라진 것은 아닙니다.

// KPMG가 이후에 밝힌 것

KPMG의 대변인은 보고서를 철회한 후 다음과 같이 선언했습니다:

"우리는 모든 직원이 콘텐츠를 검증하고 독립적인 출처를 확인하기 위한 인간의 감독 (human oversight)을 포함하여, 책임감 있는 AI 사용에 관한 당사의 가이드라인을 준수할 것을 기대합니다."

번역하자면: 우리는 가이드라인이 있습니다. 누군가 그것을 따르지 않았습니다. 우리는 조사 중입니다.

그들이 말하지 않은 것: KPMG 로고가 박힌 책임감 있는 AI (responsible AI)에 관한 핵심 보고서가 그들의 공식 채널에 게시되면서, 어떻게 45개의 인용 문헌 중 단 하나도 검증되지 않은 채 전체 내부 검토 프로세스를 통과할 수 있었는가 하는 점입니다.

250,000명의 직원.

5개의 유효한 인용.

아무도 아무것도 묻지 않았습니다.

// 결론 — 문제는 기술적인 것이 아니다

모델은 설계된 대로 정확히 작동합니다: 학습된 패턴을 바탕으로 일관성 있고 그럴듯한 텍스트를 생성합니다.

모델은 거짓말을 하지 않습니다. 그들에게는 거짓말이라는 개념 자체가 없습니다. 그들은 그저 적절해 보이는 것을 생성할 뿐입니다.

문제는 인간에게 있습니다: 검증 루프 (verification loop) 없이 AI를 연구자로 사용하는 것은 효율성이 아닙니다. 그것은 진실에 대한 개념이 없는 시스템에 진실을 위임하고, 그 위에 자신의 이름을 서명하는 것입니다.

KPMG는 AI로 보고서를 만든 것이 아닙니다.

그들은 보고서처럼 보이는 외형을 만들었고, 그것을 연구 결과로 판매했습니다.

이 차이는 의미론적인 차이가 아닙니다.

무언가를 실제로 아는 것과, 아는 것처럼 보이는 것 사이의 차이입니다.

2025년, 세계 최대 규모의 기업들은 '보이는 것'을 선택했습니다.

1차 출처 — 직접 확인하세요:

GPTZero Investigation (전체 보고서): https://gptzero.me/news/investigations-kpmg/
TechCrunch: https://techcrunch.com/2026/06/13/kpmg-pulls-report-on-ai-usage-due-to-apparent-hallucinations/
The Register: https://www.theregister.com/ai-and-ml/2026/06/12/kpmgs-ai-report-turns-into-a-demo-of-ai-hallucinations/5255029
CityAM: https://www.cityam.com/kpmg-report-on-ai-found-riddled-with-ai-hallucinations/

t474-r0b07 — Tarija, Bolivia

github.com/t474-r0b07

Insights