스코어카드는 2024년 기준입니다: 2025년 12월 Juejin AI 코딩 라운드업이 놓치고 있는 것

오늘 아침 2025년 12월 Juejin AI 코딩 도구 라운드업(roundups) 세 개를 연달아 읽으며 깊이 파고들었는데, 결국 제 머릿속에 명확해진 사실은 이 모든 글이 동일한 다섯 가지 축을 기준으로 점수를 매기고 있다는 점입니다. 즉, 밀리초(ms) 단위의 자동 완성 지연 시간(autocomplete latency), 응답 속도 등급(response speed tier), 자율 에이전트(autonomous agent) 능력에 대한 별점, SSO 및 SOC2를 위한 보안 및 컴플라이언스(security and compliance) 점수, 그리고 팀 협업(team collaboration) 별점입니다. 그리고 거의 모든 글이 2024년 이후로 스코어카드(scorecard) 자체를 업데이트하지 않았습니다. 첫 번째 순위에서는 Tencent CodeBuddy가 200ms의 자동 완성 기능과 완전한 SOC2를 갖추어 9.6점을 기록했습니다. 두 번째 순위에서는 동일한 다섯 가지 축을 기준으로 Sourcegraph Cody가 8.2점, Replit Ghostwriter가 8.0점, Codeium이 7.8점, Tabnine이 7.6점, Amazon CodeWhisperer가 7.5점, JetBrains AI Assistant가 7.4점, Blackbox가 7.2점을 기록했습니다. 세 번째는 Cursor 대 Claude Code 대 Codex 대 Lovable 대 v0의 헤드 투 헤드(head-to-head) 비교였으며, 자동 완성 지연 시간과 IDE 훅(IDE hooks)을 주요 기준으로 삼아 모든 것을 S, A, B, D 티어로 분류했습니다. 6개월 전의 저라면 이런 문장을 쓰지 않았을 것입니다.

저를 한계까지 몰아붙인 결정적인 부분은, 동일한 5가지 스코어카드 축(scorecard axes)이 더 이상 그 축들로 경쟁하지 않는 도구들에 그대로 적용되고 있다는 사실을 깨달았을 때였습니다. Cursor는 2026년에 자동 완성(autocomplete) 속도를 팔고 있는 것이 아닙니다. Cursor는 Plan Mode 에이전트 런타임(agent runtime), Tab 키 플로우(Tab key flow), 그리고 인라인 Cmd+K 리뷰(inline Cmd+K review)를 팔고 있습니다. Claude Code는 응답 속도를 파는 것이 아니라, 진정으로 모호한 문제를 넘겨주면 가설 검증(hypothesis walk-through)과 함께 여러 파일에 걸친 편집(multi-file edit) 결과를 돌려받는 능력을 팔고 있습니다. GitHub Copilot은 에이전트 런타임(agent runtime) 스토리와 Copilot Chat, 그리고 PR 요약(PR summaries)을 중심으로 조용히 포지셔닝을 재정립해 왔지만, 이 기능들은 제가 오늘 아침 읽은 세 가지 스코어카드 어디에도 거의 나타나지 않았습니다. 공정하게 말하자면 자동 완성 지연 시간(autocomplete latency)은 여전히 실제 제품 기능이며, 벤치마크 방법론이 거의 공개되지 않기 때문에 저는 정확한 밀리초(millisecond) 수치를 액면 그대로 믿지는 않습니다. 하지만 스코어카드의 형태 자체가 오늘 아침 내내 머릿속을 떠나지 않았습니다. 우리는 2026년의 도구들을 2024년의 기준으로 평가하고 있으며, 그 격차는 Juejin IDE 순위와 GitHub 트렌딩 요약(GitHub trending recap)을 같은 주에 읽는 사람이라면 누구나 눈에 보일 정도입니다.

2025년 4월, 5월, 6월, 그리고 10월의 GitHub 트렌딩 요약에서는 GUI 자동화를 위한 Agent-S, 메모리 그래프(memory graphs)를 위한 Graphiti, 지속적인 컨텍스트(persistent context)를 위한 supermemory, 메모리 레이어(memory layer) 패턴을 위한 mem0, 플러그인 프레임워크를 위한 FastMCP, Anthropic의 레퍼런스인 claude-cookbooks, 그리고 가장 최근에는 AI 코딩 에이전트에게 프로젝트 컨텍스트를 전달하기 위한 제안된 표준인 AGENTS.md가 등장했습니다. 이 프로젝트들 중 자동 완성 지연 시간(autocomplete latency)으로 경쟁하는 것은 단 하나도 없습니다. SOC2 점수를 가진 것도 없습니다. 12월 Juejin IDE 순위에도 나타나지 않으며, 바로 그 부재 자체가 하나의 데이터 포인트입니다. 솔직히 말해서, 기업 조달(enterprise procurement) 축으로 도구를 평가하면서 에이전트 런타임(agent runtime)과 메모리 레이어(memory layer) 축을 무시하는 그 어떤 AI 코딩 도구 순위도 저는 다소 회의적입니다. 왜냐하면 현재 도구를 선택하고 있는 제가 아는 엔지니어들은 '채팅 기능이 포함된 자동 완성'을 구매하고 있는 것이 아니기 때문입니다.

제가 강조하고 싶은 실질적인 시사점은, 2025년 12월의 중국어 AI 코딩 도구 순위가 Tencent CodeBuddy와 같은 중국 내수 전용 제품을 추적하거나 아시아 태평양 지역의 기업 구매 선호도를 파악하는 데에는 여전히 유용하다는 점입니다. 하지만 2026년에 어떤 AI 코딩 도구에 비용을 지불할지 결정하려는 현업 엔지니어라면, 그 답은 2024년 이후 업데이트되지 않은 5개 축 스코어카드(five-axis scorecard)에서 Codeium에 7.8점을 준 리스트가 아니라, GitHub 트렌딩 요약(trending recaps)이나 Cursor 및 Claude Code에 대한 영어 리뷰에서 나올 가능성이 거의 확실합니다. 저는 Cursor나 Claude Code를 다루었던 것만큼 Tencent CodeBuddy를 스트레스 테스트(stress-test)해 보지 않았기에, 과대평가하거나 과소평가하기 전에 실제로 한 분기 동안 사용해 보고 싶습니다. 하지만 세 개의 서로 다른 중국어 라운드업(roundups)이 동일한 5개 축 스코어카드와 동일한 소수점 점수로 수렴한다는 사실은, 해당 라운드업 형식이 처음부터 새로 작성되는 것이 아니라 복사하여 붙여넣기(copy-pasted)되고 있음을 말해줍니다. 이는 해당 형식이 기업 구매 팀이 아닌 현업 엔지니어들에게 계속 유효하기 위해 반드시 해결해야 할 구조적인 문제입니다.

3개월 후에 다시 평가하겠습니다. 마지막으로 제가 그렇게 말했을 때, 저는 코딩에는 주로 Cursor와 Claude Code를 사용하고 그 외의 모든 것에는 ChatGPT를 사용하고 있었으며, 현재도 대략 그 상태를 유지하고 있습니다. 달라진 점은 이제 Juejin AI 코딩 도구 라운드업을 특히 기업 구매 시장을 위한 유용한 자료로 읽고, GitHub 트렌딩 요약을 실제로 무엇을 가지고 개발할지에 대한 진실의 원천(source of truth)으로 읽는다는 것입니다. 그리고 저는 이러한 구분 방식이 시간이 지나도 유효할 것이라고 생각합니다. 6개월 정도 지나면 중국어 라운드업들이 스코어카드에 에이전트 런타임 계층(agent runtime layer)과 메모리 계층(memory layer) 프로젝트를 포함하기 시작할 것으로 예상하며, 그렇게 된다면 해당 형식이 마침내 엔지니어들이 일 년 내내 GitHub에서 출시해 온 것들을 따라잡았음을 알게 될 것입니다.

스코어카드는 2024년 기준입니다: 2025년 12월 Juejin AI 코딩 라운드업이 놓치고 있는 것

요약

핵심 포인트

댓글