우리는 단순히 인터넷으로 AI를 학습시킨 것이 아닙니다. AI 스스로를 학습시키기 시작했습니다.
요약
고품질 인간 데이터의 고갈과 AI 생성 합성 데이터로 인한 재귀적 학습 루프의 위험성을 경고합니다. 데이터의 분산과 독창성이 감소하는 '분포 붕괴' 현상이 컴퓨팅 스케일링만으로는 해결될 수 없음을 지적합니다.
핵심 포인트
- 인간 데이터 고갈로 인한 합성 데이터 의존도 증가
- 재귀적 학습 루프로 인한 데이터의 독창성 및 분산 감소
- 컴퓨팅 스케일링이 데이터 품질 저하를 해결하지 못함
- 모델 행동에 의해 형성되는 데이터셋의 위험성
현재 거의 모든 AI 논의에는 조용한 가정이 하나 깔려 있습니다:
“컴퓨팅 자원(Compute)과 모델을 확장하면, 지능은 계속해서 향상될 것이다.”
그 가정이 무너지기 시작하고 있습니다.
요란하게 말이죠.
구조적으로 말입니다.
진짜 병목 현상은 컴퓨팅 자원이 아닙니다
우리는 마치 컴퓨팅 자원이 주요 제약 사항인 것처럼 최적화를 해왔습니다.
GPU. 클러스터(Clusters). 병렬성(Parallelism). 더 빠른 학습 실행.
하지만 눈에 잘 보이지 않는 제약 사항이 나타나고 있습니다:
우리는 고품질의 인간 데이터(Human data)를 다 써가고 있습니다.
그리고 더 나쁜 것은:
우리는 그것을 근본적으로 다른 무언가로 대체하고 있다는 점입니다.
우리가 학습시키고 있는 바로 그 모델들에 의해 생성된 합성 콘텐츠(Synthetic content)로 말이죠.
인터넷은 과거에 무질서했습니다. 그것이 장점이었습니다.
초기 파운데이션 모델(Foundation models)은 우리가 조용히 잃어가고 있는 무언가를 가지고 있었습니다:
대체로 인간이 만든 인터넷 말입니다.
깨끗하지도, 구조화되지도, 최적화되지도 않았습니다.
하지만 진짜였습니다.
- 새벽 2시의 압박 속에서 작성된 Stack Overflow 답변들
- 의견 충돌과 수정으로 가득 찬 Reddit 스레드
- 문서화가 절반만 된 GitHub 리포지토리(Repos)
- 실제 불확실성이 녹아 있는 연구 논문들
- 사람들이 논쟁하고, 실패하며, 아이디어를 다듬던 포럼들
이것은 단순한 “데이터”가 아니었습니다.
그것은 **제약 조건 아래 압축된 인간의 추론(Human reasoning)**이었습니다.
그리고 그것은 유용한 방식으로 혼란스러웠습니다.
그 인터넷은 더 이상 우리가 학습하는 대상이 아닙니다
현재로 빠르게 넘어와 보겠습니다.
웹의 크고 성장하는 부분은 다음과 같습니다:
- AI가 작성한 블로그 포스트
- 대규모로 생성된 SEO 페이지
- 여러 LLM(Large Language Models)에 의해 다시 작성된 코드 스니펫(Code snippets)
- 요약의 요약의 요약
- 인간이 아닌 랭킹 시스템에 최적화된 콘텐츠
개별적으로 보면 이 중 어느 것도 위험해 보이지 않습니다.
하지만 집합적으로는 새로운 무언가를 만들어냅니다:
인간의 행동이 아닌, 모델의 행동에 의해 점점 더 형성되는 데이터셋
아무도 제대로 가격에 반영하지 못하고 있는 피드백 루프
이것이 대부분의 사람들이 과소평가하는 부분입니다:
우리는 재귀적 학습 루프(Recursive training loop)에 진입하고 있습니다.
인간 데이터 → 모델 학습 → AI 생성 콘텐츠 → 새로운 학습 데이터
반복.
각 사이클은 다음과 같은 것들을 약간씩 감소시킵니다:
- 분산 (variance)
- 독창성 (originality)
- 모순 밀도 (contradiction density)
- "기이한 인간적 예외 사례 (weird human edge cases)"
그리고 다음을 증가시킵니다:
- 패턴 반복 (pattern repetition)
- 스타일의 수렴 (stylistic convergence)
- 안전한 평균적 추론 (safe average reasoning)
이것은 가설이 아닙니다.
이미 일어나고 있는 일입니다.
컴퓨팅 스케일링 (scaling compute)이 이를 해결하지 못하는 이유
이 분야에는 미묘한 오해가 있습니다:
더 많은 컴퓨팅 (More compute) = 더 나은 지능
하지만 컴퓨팅이 분포 붕괴 (distribution collapse)를 해결하지는 못합니다.
만약 데이터셋이 다음과 같은 방향으로 서서히 이동한다면:
- 반복 (repetition)
- 템플릿화된 추론 (templated reasoning)
- 평균화된 설명 (averaged explanations)
- 정보량이 낮은 콘텐츠 (low-information content)
그렇다면 스케일링은 단지 다음과 같은 결과를 초래할 뿐입니다:
동일한 중간 수준의 답변으로 더 빠르게 수렴 (faster convergence to the same middle-of-the-road answer)
더 깊은 지능이 아니라,
그저 더 확신에 찬 모방일 뿐입니다.
불편한 신호: 모델들이 점점 비슷하게 들리기 시작하고 있다
최근 여러 LLM (Large Language Models)을 사용해 보았다면 아마 느끼셨을 것입니다:
모델들이 수렴하고 있습니다.
능력이 아니라,
목소리(voice) 측면에서 말입니다.
- 동일한 구조화된 불렛 포인트 추론 (structured bullet reasoning)
- 동일한 "균형 잡힌" 어조 (balanced tone)
- 동일한 주의 깊은 면책 조항 (careful disclaimers)
- 동일한 예측 가능한 프레이밍 패턴 (predictable framing patterns)
- 동일한 안전한 설명 스타일 (safe explanatory style)
이것은 우연이 아닙니다.
훈련 분포 (training distributions)가 겹치고 압축될 때 발생하는 현상입니다.
시스템이 스스로를 평균화하기 시작하는 것입니다.
지금 벌어지고 있는 숨겨진 경쟁
이것이 바로 모든 주요 AI 연구소들이 조용히 똑같은 일을 하고 있는 이유입니다:
- 출판사 아카이브 라이선스 체결
- 포럼 및 커뮤니티 데이터 비용 지불
- Reddit 규모의 대화 데이터 확보
- 독점적인 인간 데이터셋 구축
왜냐하면 현 시점에서:
고품질의 인간 생성 데이터는 더 이상 콘텐츠가 아닙니다. 그것은 인프라 (infrastructure)입니다.
그리고 인프라가 한계치 (ceilings)를 결정합니다.
모델의 크기가 아니라 말입니다.
진짜 위험은 지능이 아닙니다. 다양성의 붕괴입니다.
사람들은 종종 묻습니다:
"AI가 너무 강력해지면 어쩌죠?"
그것은 잘못된 실패 모드 (failure mode)입니다.
더 현실적인 실패 모드는 훨씬 더 미묘합니다:
AI 시스템이 점점 더 자기 참조적 (self-referential)이 되어, 자신의 출력물에 대한 메아리로 학습되는 것.
일단 그런 일이 발생하면, 다음과 같은 것들을 잃기 시작합니다:
- 엣지 케이스 추론 (edge-case reasoning)
- 사고의 참신함 (novelty in thought)
- 모순 신호 (contradiction signals)
- 무질서한 인간의 직관 (messy human intuition)
- 예상치 못한 도약 (unexpected leaps)
그리고 이것들은 애초에 돌파구(breakthroughs)를 만들어냈던 바로 그 요소들입니다.
이것이 향하고 있는 곳
우리는 아마도 두 개의 인터넷 계층으로 분리될 것입니다:
1. 고신뢰 인간 신호 계층 (High-trust human signal layer)
비싸고, 큐레이션(Curated)되어 있으며, 라이선스(Licensed)가 필요하고, 복제하기 어렵습니다.
2. 합성 인터넷 계층 (Synthetic internet layer)
저렴하고, 확장 가능하며(Scalable), 점점 더 자기 참조적(self-referential)이 되어갑니다.
그리고 이 두 계층 사이의 격차는 매개변수(parameter) 수보다 모델의 품질을 더 결정적으로 정의하게 될 것입니다.
현재 일어나고 있는 일을 말하는 더 정확한 방법
우리는 흔히 이렇게 말합니다:
“AI는 인터넷을 통해 학습된다.”
이것은 이미 시대에 뒤떨어진 표현입니다.
더 정확한 버전은 다음과 같을 것입니다:
“AI는 이제 이전 버전의 AI에 의해 형성된 인터넷을 통해 학습되고 있다.”
이 단 하나의 변화가 시스템 전체의 역학(dynamics)을 바꿉니다.
마지막 생각
인터넷은 단순히 AI를 학습시킨 것이 아닙니다.
인터넷은 AI에게 구조, 어조, 그리고 추론 패턴을 부여했습니다.
이제 AI는 그 동일한 시스템으로 다시 피드백(feed back)되기 시작했습니다.
그리고 불편한 가능성은 이것입니다:
우리는 지능의 향상이 컴퓨팅 자원(compute)이 아니라, 자기 참조적인 시스템 내에서 압축되지 않은 인간의 신호(uncompressed human signal)를 얼마나 오래 보존할 수 있느냐에 의해 제한되는 단계에 진입하고 있을지도 모릅니다.
일단 그 신호가 사라지면, 단순히 데이터를 잃는 것이 아닙니다.
변이(variation)를 잃게 됩니다.
그리고 변이가 없다면, 지능은 복리로 성장(compounding)하는 것을 멈춥니다.
이 내용에 공감하신다면, 저는 이 아이디어의 짧은 버전을 원래 여기에 작성했습니다:
이에 대한 다른 관점들—특히 오늘날 모델을 구축하거나 학습시키는 분들의 의견을 듣는다면 매우 흥미로울 것 같습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기