
ChatGPT가 예전보다 멍청해졌다고 느끼셨나요?
요약
AI가 생성한 데이터로 학습된 차세대 AI 모델이 성능이 저하되는 '모델 붕괴(Model Collapse)' 현상을 설명합니다. Oxford와 Cambridge 연구진은 AI 데이터가 반복 학습될수록 창의적이고 희귀한 정보가 사라지고 평균적인 결과물만 남게 된다고 경고합니다.
핵심 포인트
- 모델 붕괴: AI 생성 데이터 학습 시 모델 성능이 급격히 저하되는 현상
- 분포의 꼬리 상실: 창의적이고 특이한 데이터가 학습 과정에서 가장 먼저 소멸
- 데이터 오염: AI 생성 콘텐츠가 인터넷을 채우며 차세대 모델 학습을 방해
- 비가역적 손실: 한 번 사라진 인간 고유의 데이터 패턴은 복구가 어려움
당신은 이미 눈치챘을 것입니다. ChatGPT가 예전보다 더 멍청해진 것처럼 느껴집니다. 6개월 전에는 잘 작동했던 당신의 프롬프트(Prompts)가 이제는 더 나쁜 결과를 만들어냅니다. 글쓰기는 더 단조로워졌습니다. 아이디어는 더 안전한 쪽으로 흐릅니다. 인터넷 자체가 줄어들고 있는 것처럼 느껴집니다. 모든 기사가 똑같이 읽힙니다. 모든 이메일이 똑같이 들립니다. 모든 답변이 마치 동일한 목소리로 쓰인 것처럼 들립니다.
당신이 문제라고 생각했을지도 모릅니다. 하지만 당신의 잘못이 아닙니다.
Oxford와 Cambridge의 연구진은 Nature에 무엇이 일어나고 있는지 증명하는 논문을 발표했습니다. 그들은 이를 모델 붕괴 (Model Collapse)라고 부릅니다.
그 메커니즘을 한 문장으로 설명하면 다음과 같습니다. AI가 생성한 데이터로 학습된 AI는 실제 인간의 데이터가 어떻게 생겼었는지 잊어버릴 때까지 세대를 거듭할수록 점점 더 멍청해집니다.
인터넷은 AI가 생성한 콘텐츠로 채워지고 있습니다. 블로그 포스트, 기사, 리뷰, 댓글, 소셜 미디어 등 말이죠. AI 기업들은 차세대 모델을 학습시키기 위해 인터넷을 스크레이핑 (Scrape)합니다. 이는 차세대 AI가 현재 세대의 출력물(Output)을 바탕으로 학습되고 있음을 의미합니다.
각 사이클마다 정보가 손실됩니다. 무작위로 손실되는 것이 아닙니다. 가장 희귀하고, 가장 특이하며, 가장 창의적인 부분부터 먼저 사라집니다. 연구진은 이를 "분포의 꼬리 (tails of the distribution)"라고 부릅니다. 기발한 아이디어, 예상치 못한 관점, 인터넷을 인간답게 느껴지게 만들었던 것들 말입니다. 그것들이 가장 먼저 사라집니다.
남는 것은 평균적인 것, 안전한 것, 예상 가능한 것, 그리고 특징 없는 것들뿐입니다.
그러면 다음 세대는 그것을 바탕으로 학습합니다. 그리고 더 많은 것을 잃습니다. 그다음 세대는 또 그것을 바탕으로 학습하고, 더 많은 것을 잃습니다. 연구진은 이것이 느린 하락이 아니라는 것을 증명했습니다. 일부 원래의 인간 데이터가 보존되어 있을 때조차, 단 몇 번의 반복 (Iterations)만으로도 심각한 저하가 발생합니다.
그들은 대규모 언어 모델 (Large Language Models), 이미지 생성기, 통계 모델을 대상으로 테스트했습니다. 패턴은 매번 동일했습니다. 출력물은 원래의 데이터와는 전혀 닮지 않은, 좁고 평평해진 현실의 버전으로 수렴합니다.
수석 연구원은 이를 솔직하게 표현했습니다. "대규모 언어 모델은 불과 같습니다. 유용한 도구이지만, 환경을 오염시키는 것이기도 합니다."
그 오염은 눈에 보이지 않습니다. 인터넷상의 어떤 문장이 인간에 의해 쓰였고, 어떤 문장이 AI에 의해 쓰였는지 구분할 수 없습니다. 그 데이터를 학습하게 될 AI 또한 알 수 없습니다. 그리고 일단 꼬리(tails)가 사라지면, 그것들은 다시 돌아오지 않습니다. 그 피해는 되돌릴 수 없습니다.
이것은 더 이상 예측이 아닙니다. 진단입니다.
당신이 성장하며 접했던 인터넷은 어떤 알고리즘도 쓰지 않았을 법한 것들을 인간이 작성하며 구축되었습니다. 기묘하고, 개인적이며, 불완전하고, 살아있는 것들 말입니다. 그 인터넷은 희석되고 있습니다. 한 세대의 AI가 지나갈 때마다 말이죠. 그리고 남은 데이터로 학습되는 모델들은 점점 더 작아지는 버전의 세상을 배우고 있습니다.
모델 붕괴 (Model Collapse)는 기술적인 문제가 아닙니다. 그것은 문화적인 문제입니다. 인터넷을 읽을 가치가 있게 만들었던 바로 그 요소가 가장 먼저 사라지고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @nainsidwiv50980 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기