본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 11. 07:33

ChatGPT가 예전보다 덜 똑똑해졌다고 느낀 적이 있나요? 모델 붕괴(Model Collapse) 현상

요약

AI가 AI가 생성한 데이터로 학습하면서 지능이 점진적으로 저하되는 '모델 붕괴(Model Collapse)' 현상이 발생하고 있습니다. 이는 인터넷 콘텐츠가 AI 생성물로 채워지면서, 가장 희귀하고 창의적인 정보('분포의 꼬리')부터 손실되기 때문입니다. 이 현상은 기술적 문제를 넘어 문화적 문제입니다.

핵심 포인트

  • AI가 자체 생성 데이터로 학습하며 지능이 점진적으로 하락하는 '모델 붕괴' 현상 발생.
  • 인터넷 콘텐츠가 AI 생성물로 채워지면서 창의적이고 희귀한 정보부터 손실됨.
  • 이러한 정보 손실은 되돌릴 수 없는 문화적 문제입니다.
  • 대규모 언어 모델 등 여러 분야에서 성능 저하 패턴이 일관되게 관찰됨.

여러분도 느끼셨을 겁니다. ChatGPT가 예전보다 둔감해진 것 같다는 느낌을요. 6개월 전에는 잘 작동했던 프롬프트로 지금은 더 나쁜 결과물이 나옵니다. 글쓰기가 너무 평면적입니다. 아이디어가 안전하게 들립니다. 인터넷 자체가 축소되는 느낌입니다. 모든 기사가 똑같습니다. 모든 이메일이 비슷합니다. 모든 답변이 같은 목소리로 쓰인 것 같습니다.

여러분은 스스로가 문제라고 생각했습니다. 하지만 그렇지 않습니다.

옥스퍼드와 캠브리지의 연구원들이 Nature에 논문을 발표하며 현재 벌어지고 있는 현상을 증명했습니다. 그들은 이것을 모델 붕괴(Model Collapse)라고 부릅니다.

이 메커니즘을 한 문장으로 설명하면 이렇습니다. AI가 AI가 생성한 데이터로 학습하게 되면서, 실제 인간의 데이터가 어떤 모습이었는지 잊어버릴 때까지 세대마다 지능이 떨어지는 것입니다.

인터넷은 AI가 생성한 콘텐츠로 채워지고 있습니다. 블로그 게시물, 기사, 리뷰, 댓글, 소셜 미디어 등입니다. AI 회사들은 다음 세대의 모델을 학습하기 위해 인터넷을 긁어모읍니다(scrape). 이는 곧 다음 세대 AI가 현재 세대의 결과물을 가지고 학습되고 있다는 의미입니다.

각 사이클마다 정보가 손실됩니다. 무작위로 손실되는 것이 아닙니다. 가장 희귀하고, 가장 특이하며, 가장 창의적인 부분부터 손실됩니다. 연구원들은 이를 '분포의 꼬리(tails of the distribution)'라고 부릅니다. 즉, 기발한 아이디어, 예상치 못한 관점, 인터넷을 인간답게 느끼게 만들었던 것들입니다. 이들이 가장 먼저 사라집니다.

남는 것은 평균적인 것, 안전한 것, 기대되는 것, 그리고 평범함뿐입니다.

그러면 다음 세대는 그 데이터를 가지고 학습합니다. 그리고 더 많이 손실합니다. 또 다음 세대는 그것을 가지고 학습하고 더 많이 손실합니다. 연구원들은 이것이 느린 하락세가 아니라는 것을 증명했습니다. 심지어 원래의 인간 데이터 일부가 보존될 때에도, 단 몇 번의 반복만으로도 주요한 성능 저하(Major degradation)가 발생한다는 것입니다.

그들은 대규모 언어 모델(large language models), 이미지 생성기, 통계 모델에 걸쳐 테스트를 진행했습니다. 패턴은 매번 동일했습니다. 출력 결과는 원래 데이터와는 전혀 다른, 좁고 평평한 현실 버전으로 수렴하는 것이었습니다.

선임 연구원은 이를 명확하게 말했습니다.

오염은 눈에 보이지 않습니다. 인터넷의 어떤 문장이 인간이 쓴 것인지, AI가 쓴 것인지를 알 수 없습니다. 그리고 이 데이터를 학습할 예정인 AI 역시 마찬가지입니다. 일단 이러한 '꼬리(tails)'들이 사라지면 되돌릴 수 없습니다. 그 피해는 돌이킬 수 있습니다.

이는 더 이상 예측이 아닙니다. 진단입니다.

당신이 성장해 온 인터넷은 알고리즘으로는 절대로 쓰지 않았을, 인간들이 쓴 글들로 구축되었습니다. 기묘하고, 개인적이며, 불완전하고, 살아있는 글들 말입니다. 그 인터넷이 희석되고 있습니다. AI 세대마다 하나씩요. 그리고 남아 있는 것에 학습하는 모델들은 점점 더 작고 축소된 버전의 세계를 배우게 됩니다.

모델 붕괴(Model Collapse)는 기술적인 문제가 아닙니다. 문화적인 문제입니다. 인터넷을 읽을 가치가 있게 만들었던 바로 그 것이 가장 먼저 사라지고 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @heynavtoor (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0