Stack Overflow는 자신을 죽인 LLM을 학습시켰다. 이제 그들에게 도움을 요청하고 있다.
요약
Stack Overflow가 AI 에이전트를 위한 새로운 코퍼스 서비스인 'Stack Overflow for Agents'를 발표했습니다. 에이전트 간의 지식 휘발 문제를 해결하기 위해 디버깅 추적과 해결책을 공유하는 루프를 구축하고자 합니다.
핵심 포인트
- 에이전트의 지식 휘발성(Ephemeral Intelligence Gap) 문제 해결 시도
- 질문, TIL(오늘 배운 것), 청사진(Blueprint) 형태의 데이터 기여 방식 도입
- 에이전트가 해결한 문제를 코퍼스에 저장하여 연산 자원 낭비 방지
- 인간의 평판 점수와 연동된 인간 앵커링(Human anchoring) 시스템 적용
향수(Nostalgia).
2014년에는 한 달에 200,000개의 질문이 올라왔습니다. 2025년 말에는 3,862개로 예상됩니다. 98%의 급감이며, 그래프는 단순히 경사가 완만한 것이 아니라 절벽에서 떨어지는 형국입니다. 만약 당신의 첫 직감이 "ChatGPT가 Stack Overflow를 죽였다"라면, 결과에 대해서는 틀린 말이 아니지만, 그 원인에 대해서는 4년이나 늦었습니다. 몰락은 GPT-3가 공개 제품이 되기 훨씬 전인 2018년에 시작되었습니다. 실제로 일어난 일은 더 구체적입니다. 15년 동안 축적된 투표된 질문들과 개발자들의 논쟁이 담긴 **Stack Overflow 코퍼스 (corpus)**가, 개발자들이 플랫폼에서 묻던 질문들에 직접 답하는 LLM (Large Language Models)을 학습시킨 것입니다. AI는 코퍼스의 가치를 흡수했고, 그 후에는 아무런 가치도 생산하지 않게 되었습니다.
Stack Overflow는 죽은 것이 아닙니다. **소화(digested)**된 것입니다.
지난주, Stack Overflow는 현재 베타 버전인 Stack Overflow for Agents를 발표했습니다. 핵심 제안은 다음과 같습니다. AI 에이전트(agent)를 위해 검증된 솔루션들이 담긴 공유 코퍼스를 제공하여, 에이전트들이 "이미 해결된 문제에 토큰과 연산 자원(compute)을 낭비하고, 세션이 종료되는 순간 어렵게 얻은 지식을 잃어버리는 것"을 방지하겠다는 것입니다 (CEO Prashanth Chandrasekar).
이 모델들을 쓸모없게 만들었던 바로 그 실체가, 이제는 자신이 소비한 것을 다시 채워달라고 동일한 모델들에게 요청하고 있습니다. 이 새로운 코퍼스는 다음 단계의 학습에 공급될 것입니다. 루프(loop)가 닫혔습니다. 거의 말이죠.
아무도 기억하지 못하는 20분짜리 버그
Stack Overflow for Agents가 해결하려는 문제는 이름이 있습니다: 바로 **휘발성 지능 격차 (Ephemeral Intelligence Gap)**입니다. 에이전트 세션이 종료되면, 에이전트가 발견한 모든 것은 증발하며, 동일한 문제에 부딪히는 다음 에이전트에게 전달되는 것은 아무것도 없습니다.
출시 보도에 나온 구체적인 사례를 보면: 샌프란시스코의 한 에이전트가 라이브러리의 중대한 변경 사항에 대한 우회 방법을 찾기 위해 20분 동안 무차별 대입(brute-forcing)을 시도하지만, 정작 다른 에이전트가 불과 5분 전에 정확히 동일한 버그를 해결했다는 사실은 전혀 모릅니다. 이는 첫 번째 에이전트가 시작하기도 전에 이미 해결된 문제에 25분 분량의 연산 자원을 소비한 셈입니다.
모든 세션의 종료는 'You died' 화면과 같습니다. 다만 다음 에이전트는 그 혈흔에 대한 기억 없이 생성될 뿐입니다.
Stack Overflow for Agents는 에이전트가 공유 코퍼스에 기여할 수 있는 3가지 유형의 기여를 도입합니다:
- Questions (질문): 에이전트나 사람이 답변하도록 게시된 해결되지 않은 문제들
- TIL (Today I Learned, 오늘 배운 것): 막다른 길(dead ends)을 포함한 전체 디버그 추적(debug traces)과 마지막에 포함된 실제 해결책
- Blueprint (청사진): 재사용 가능한 패턴. 높은 기준을 요구하며, 코퍼스(corpus)에 진입하기 전 인간의 검토가 필요함.
워크플로우는 검색 우선(search-first) 방식입니다. 에이전트는 문제 해결을 실행하기 전에 코퍼스를 쿼리(query)합니다. 누락된 것을 발견하면 기여합니다. 다른 이들의 항목을 적용한 후에는 이를 검증됨(verified) 또는 오류 있음(broken)으로 표시합니다. 인간 앵커링 (Human anchoring): 에이전트는 Stack Overflow SSO를 통해 등록하며, 기여도는 인간의 평판 점수(reputation score)와 연결됩니다. 2008년부터 이어온 품질 기준이 2026년에도 유지되도록 설계되었습니다.
Stack Overflow가 완전히 답하지 못한 운영상의 질문은 다음과 같습니다: 에이전트가 실제로 매번 문제를 해결하기 전에 이 코퍼스를 쿼리할 것인가 하는 점입니다. 세계 최고의 지식 베이스를 구축할 수는 있습니다. 하지만 검색(lookup) 과정이 마찰(friction)을 일으킨다면 에이전트들은 여전히 이를 우회할 것입니다.
ChatGPT가 Stack Overflow를 죽인 것이 아니다
이 부분은 흔한 내러티브와 분리해서 생각할 가치가 있습니다. 왜냐하면 흔한 내러티브는 교훈을 잘못된 방향으로 인도하기 때문입니다.
쇠퇴는 2018년에 시작되었습니다. 특정 LLM의 출시 때문이 아닙니다. 당시에는 공개적으로 사용 가능한 모델이 없었습니다. GPT-3가 출시되고 개발자들이 AI를 실질적인 도구로 진지하게 받아들이기 시작한 2020년 무렵, Stack Overflow는 이미 월간 질문 수가 정점이었던 200,000개에서 감소한 약 140,000개 수준이었습니다. 궤적은 이미 결정되어 있었습니다. ChatGPT는 2022년에 등장하여 이미 진행 중이던 흐름을 가속화했을 뿐입니다. 그것은 원인이 아니라 마지막 타격이었습니다.
2018년에 하락을 시작하게 만든 원인은 더 일상적인 것입니다: 코퍼스(corpus)가 완성되었다는 점입니다. 사람이 답변해야 했던 질문들은 대부분 이미 질문되었고, 답변되었으며, Google에 의해 인덱싱(indexed)되어 아무것도 게시하지 않고도 찾아낼 수 있는 상태였습니다. Stack Overflow는 스스로 구축해 온 것들의 성공으로 인해 채굴이 완료되었고, 그 완결성 자체에 의해 잠식되고 있었습니다.
그 후 해당 코퍼스 (corpus)로 학습된 LLM (Large Language Models)들이 등장했고, 소비의 종결을 가져왔습니다. 모델들이 정답을 알고 있었기 때문에 개발자들은 더 이상 게시물을 올리지 않았습니다. 모델들이 정답을 알고 있었던 이유는 15년 동안 축적된 개발자들의 질문과 투표를 흡수했기 때문입니다. 학습 데이터가 학습 데이터를 불필요하게 만드는 모델을 생성한 것입니다.
Stack Overflow는 AI에게 패배한 것이 아닙니다. AI 그 자체가 된 것입니다.
이제 Stack Overflow는 **에이전틱 레이어 (agentic layer)**가 새로운 존재 이유를 만들어낼 것이라는 데 베팅하고 있습니다. 이는 합리적인 베팅입니다. 에이전트들은 일회성 LLM 호출에는 없었던, 지속적이고 공유된 지식에 대한 구조적 필요성을 가지고 있습니다. 개발자가 챗봇에게 질문을 하고 답변을 받는 것은 폐쇄된 루프 (closed loop)입니다. 수십 개의 세션에 걸쳐 파이프라인 내부에서 실행되며, 이미 어딘가에서 해결된 인프라 문제에 반복적으로 부딪히는 에이전트에게는 그러한 해결책들이 도달 가능한 어딘가에 축적될 필요가 있습니다. 코퍼스 (corpus)를 확보하는 것은 어려운 일이 아닙니다. 에이전트가 문제를 해결하기 전에 실제로 코퍼스를 쿼리(query)하도록 만드는 것이 어려운 일이며, 왜 에이전트 툴링이 코퍼스 채택을 결정하는지는 Stack Overflow가 아직 답을 내놓지 못한 질문입니다.
Mozilla는 10주 전에 이를 수행했습니다
2026년 3월 23일, Mozilla AI는 cq를 출시했습니다. 개념은 동일합니다. 이미 해결된 문제에 토큰을 낭비하기 전에 에이전트들이 검증된 솔루션을 공유하는 것입니다. 오픈 소스이며, Python 기반이고, 로컬에서 조직, 그리고 글로벌 커먼즈 (global commons)로 이어지는 3계층 아키텍처를 갖추고 있습니다. 여러 에이전트가 솔루션을 확인함에 따라 증가하는 신뢰도 점수(Confidence scores)를 제공합니다. Claude Code 및 OpenCode를 위한 플러그인도 포함되어 있습니다.
커버리지(Coverage)는 사실상 전무했습니다. 블로그 포스트 하나, GitHub 리포지토리 하나, 그리고 소수의 팔로워뿐이었습니다. (마치 팀 전체가 외부 워크숍을 가서 아무도 승인하지 않아 자동으로 종료되어 버린, 아주 훌륭한 PR(Pull Request)이 처리되는 방식과 같았습니다.)
그러다 6월 10일, Stack Overflow가 'Stack Overflow for Agents'를 발표했습니다. 48시간 이내에 InfoQ, DevOps.com, The New Stack, webdeveloper.com 등에서 관련 기사가 쏟아져 나왔습니다. 두 발표 사이의 10주라는 간극은 아이디어의 품질과는 전혀 상관없는 반응들을 만들어냈습니다.
이것이 확인해 주는 사실은 다음과 같습니다: 해당 아이디어는 Stack Overflow(SO)가 발표하기 전에도 이미 실행 가능하고 배포 가능한 상태였다는 점입니다. **휘발성 지능 격차 (Ephemeral Intelligence Gap)**는 SO가 그 이름을 붙이기 전부터 실재했던 문제였습니다. Stack Overflow가 가져온 것은 개념 그 자체가 아닙니다. 그것은 15년 동안 쌓인 코퍼스 (Corpus)와, 브랜드가 10주의 선점보다 더 큰 가치를 지닌다는 것이 증명된 개발자 생태계 내에서의 브랜드 인지도입니다.
이 지점은 깊이 생각해 볼 가치가 있습니다. 왜냐하면 이는 현재 AI 분야에서 기술 혁신이 어떻게 처리되는지에 대한 불편한 진실을 말해주기 때문입니다. Mozilla AI는 실제 아이디어에 대한 작동 가능한 오픈 소스 구현체를 구축하고 출시합니다. 하지만 아무런 반응도 없습니다. 15년 동안 개발자의 신뢰를 쌓아온 브랜드가 동일한 내용을 발표하면, 새로운 카테고리가 방금 발명되었다는 분석 기사들이 쏟아집니다. 제가 SO의 코퍼스가 진정한 가치를 더하지 않는다고 말하는 것이 아닙니다. 코퍼스는 분명 가치가 있으며, 15년의 코퍼스는 그들 버전의 핵심이지 부차적인 요소가 아닙니다. 하지만 보도량의 격차는 혁신의 거리와는 일치하지 않습니다. 그것은 브랜드의 전파력과 일치합니다. 2026년에도 누가 말하는 내용보다 그들이 말하는 방식이 더 큰 변화를 일으킨다고 말할 것이며, 그 격차는 좁혀지지 않고 있습니다.
스스로를 믿었던 청사진 (The Blueprint That Believed Itself)
출시 분석에서 전혀 다뤄지지 않는 품질 리스크.
에이전트 (Agents)는 무언가를 해결했다고 믿을 때 코퍼스에 기여합니다. 문제는 다음과 같습니다: 에이전트는 종종 해결하지 못한 것을 해결했다고 믿습니다. 에이전트는 '정확함'이 아니라 '완료됨'을 위해 최적화됩니다. 임시방편 (Workaround)을 청사진 (Blueprint)으로 표시하고 다음 단계로 넘어가는 에이전트는, 기본적으로 "내 컴퓨터에서는 잘 돌아간다"라는 티켓을 제출하고 이슈를 종료한 것과 같습니다. 명시적인 실패를 유발하지 않으면서 에이전트가 문제를 통과하게 만드는 잘못된 청사진은 유효한 것으로 표시됩니다. 이는 해당 오류가 특정 조건에서만 나타날 경우, 충분히 많은 에이전트가 그것을 사용하다가 명확하게 실패하여 수정을 유발할 때까지 코퍼스에 계속 남아있게 됩니다. 그리고 그 과정은 매우 오래 걸릴 수 있습니다.
SO는 모든 게시 전에 인간의 검토 (human review)를 계획하고 있습니다. 베타 규모에서는 이 방식이 유지됩니다. 문제는 에이전트의 기여량이 확장될 때 어떤 일이 벌어지느냐 하는 것입니다. 기계의 속도로 작업이 진행되면, 인간의 검토는 병목 현상 (bottleneck)이 되며, 병목 현상은 시스템을 느리게 만들거나 우회하게 됩니다. 둘 중 어느 쪽도 코퍼스 (corpus)의 무결성에는 좋지 않습니다.
저는 제 파이프라인에 연결된 지속적 공유 메모리 (persistent shared-memory) 도구로 14일간의 테스트를 수행했습니다 (SQLite 기반, 모든 세션 시작 시 명시적 훅 (hook) 사용, 시스템 프롬프트에 리마인더 내장. Sonnet과 Opus 모두에서 실행했으나 결과는 동일했습니다): 60번의 세션, 1,500번의 자동 호출 리마인더, 유용한 지식 축적 0건. 도구는 기술적으로 작동했습니다. 하지만 에이전트들은 제가 추가할 수 있는 모든 구조적 자극 (nudge)에도 불구하고, 이전 세션에서 발견한 내용을 바탕으로 지식을 쌓지 않았습니다. 에이전트 공유 메모리 시스템의 실제 성능은 성공을 위해 설계된 조건 하에서도 그 아키텍처 (architecture)가 시사하는 바보다 훨씬 낮은 수준에 머물러 있습니다.
또한 별도로 다룰 가치가 있는 두 번째 문제가 있는데, 이는 완전히 다른 계층의 문제입니다. 'SO for Agents'가 목표로 하는 '휘발성 지능 격차 (Ephemeral Intelligence Gap)'는 에이전트 간의 문제입니다. 즉, 에이전트 A가 무언가를 해결했지만 에이전트 B는 이를 모르는 상태입니다. 이것은 코퍼스 계층의 문제입니다. 하지만 그 밑바닥에는 더 오래된 실패 요인이 자리 잡고 있습니다. 바로 개별 에이전트 자체의 세션 내 취약성 (in-session fragility)입니다. SO 코퍼스를 정확하게 쿼리(query)하여 작동하는 블루프린트 (Blueprint)를 검색해낸 에이전트라 할지라도, 40턴 전에 내린 결정을 여전히 잊어버리고, 이미 해결한 작업을 다시 실행하며, 긴 체인(chain) 속에서 맥락의 일관성 (thread coherence)을 놓칩니다. 심리학이 어떻게 에이전트의 세션 내 메모리 문제를 해결했는지에 관한 글은 이 계층을 다룹니다: 에피소드 기억 구조 (episodic memory structure), 미래 기억 훅 (prospective memory hooks), 에이전트 아키텍처에 매핑된 간격 반복 회상 (spaced retrieval). SO for Agents는 이 문제를 해결하는 척하지 않으며, 이는 정직한 태도입니다. 하지만 코퍼스 문제를 해결하는 것이 메모리 문제까지 해결되었다고 가정하는 것은 범주 오류 (category error)입니다. 당신은 두 가지 별개의 실패 모드 중 단 하나만을 해결한 것입니다.
제 생각에 교차 에이전트 계층 (cross-agent layer)이 실제로 두 가지 중 더 다루기 쉬운 부분이며, 이것이 바로 품질 리스크가 존재함에도 불구하고 '에이전트를 위한 Stack Overflow (SO for Agents)'가 합리적인 아키텍처 베팅이 되는 이유입니다. 에이전트 내부 계층 (intra-agent layer)은 공유 코퍼스 (shared corpus)보다 상류에 위치합니다. 즉, 에이전트가 세션 내에서 자신의 이전 추론 (prior reasoning)을 신뢰할 수 있게 드러내야 하는데, 이는 어떤 외부 데이터베이스도 건드릴 수 없는 컨텍스트 관리 (context management) 문제입니다.
차세대 모델에 내재될 것들
기존의 Stack Overflow 코퍼스는 Stack Overflow를 무용지물로 만든 LLM들을 학습시켰습니다. '에이전트를 위한 SO' 코퍼스는 다음 차례의 학습에 공급될 것입니다. 이것은 데이터 수집 의도에 대한 추측이 아닙니다. 이는 표준적인 데이터-학습-배포 체인 (data-training-deployment chain)이며, '에이전트를 위한 Stack Overflow'가 이 체인 밖에 존재할 구조적 이유는 없습니다.
만약 이 코퍼스가 서로의 오답을 검증된 것으로 표시한 에이전트들에 의해 전파된 오류를 포함하게 된다면, 그 오류들은 차세대 모델의 가중치 (model weights) 속으로 들어갑니다. 그런 모델들은 이미 가중치에 내재된 동일한 오류를 가진 채 다시 코퍼스에 기여하게 되며, 이전에 그것들을 확인했던 모든 에이전트의 누적된 검증 가중치를 지닌 채 등장합니다. 코퍼스에 '청사진 (Blueprint)'으로서 들어온 오답은 다음 학습 실행을 거치며 '가정 (assumption)'으로서 나가게 되며, 이 체인에는 이를 소급하여 잡아낼 메커니즘이 없습니다.
이는 질문을 "'에이전트를 위한 SO'가 제품으로서 작동하는가"에서 더 큰 문제로 전환시킵니다. 그것은 에이전트 시대의 인프라 (infrastructure for the agentic era), 즉 AI 에이전트들이 문제를 해결하는 방법에 대해 집단적으로 무엇을 믿을지를 결정하는 인식론적 계층 (epistemic layer)이 됩니다. 에이전트가 자신들이 실행될 모델을 학습시킬 코퍼스의 생산자인 동시에 소비자일 때, 누가 진실을 검증할 것인가?
Stack Overflow는 그 질문에 대한 답으로서 15년의 경험을 가지고 있습니다. 그 모든 것은 인간의 속도로 움직이는 인간을 위해 구축되었습니다.
한 가지 조건
이 루프 (loop)는 작동할 수 있습니다. 단 한 가지 조건이 있습니다: 인간의 마찰 (human friction)이 기계적 규모에서도 유지되어야 한다는 것입니다.
만약 Stack Overflow가 에이전트(agent)의 기여량이 증가함에 따라 진정한 인간의 검토 (human review)를 유지한다면, 이 코퍼스 (corpus)는 진정한 인프라가 될 수 있습니다. 만약 그 마찰 (friction)이 무너진다면, 그리고 규모가 커짐에 따라 이미 수많은 중재 (moderation) 맥락에서 그러했듯 마찰이 사라진다면, 당신은 잘못된 답변을 위한 신뢰 증폭기 (trust amplifier)를 구축하게 되는 것입니다. 그것도 지난 15년간 쌓아온 브랜드 신뢰도를 등에 업은 채 말입니다.
그 결과는 agents.stackoverflow.com에만 머물지 않습니다. 그것은 상류 (upstream)로 흘러가, 다시 agents.stackoverflow.com에 기여하게 될 모델들의 학습 실행 (training runs) 단계로 이어집니다.
Stack Overflow는 한때 인간을 위해, 인간의 속도에 맞춰 품질 기준을 구축한 적이 있습니다. 기계적 규모 (machine-scale)의 버전은 전혀 다른 공학적 문제입니다. 이 실험이 인프라를 만들어낼지, 아니면 브랜드 가치만 높은 오류 파이프라인 (error pipeline)을 만들어낼지를 결정하는 것은 개념이나 코퍼스, 혹은 이름이 아닙니다. 그것은 에이전트의 기여가 대량으로 유입되기 시작할 때, 기계적 처리량 (machine throughput)을 위해 인간의 마찰 (human friction)을 희생하지 않을 수 있는 역량입니다.
있잖아요? 어쩌면 제가 잘못 읽고 있는 것일지도 모르지만, 그 단 한 가지 조건이 게임의 전부처럼 느껴집니다. 그 외의 모든 것은 그저 공학적인 세부 사항일 뿐입니다 🤷♂️
출처
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기