Claude Code 4.6 이후 품질 저하, 사용자들은 25%의 작업 실패율 보고

Claude Code의 품질이 4.6 버전 이후 약 25%의 지시 사항 누락과 함께 크게 저하되었습니다. Hacker News 게시물에 따르면, OpenAI의 Codex는 95%의 신뢰성을 제공하지만 창의성은 다소 떨어진다는 평가를 받고 있습니다.

주요 사실

4.6 버전 이후 Claude Code에서 약 25%의 지시 사항 누락 발생.
동일한 사용자가 Codex 5.3은 95%의 신뢰성을 보고함.
80배 성장 이후 Claude Code의 사용 제한이 두 배로 증가함.
OpenAI는 2026년 6월 2일에 Codex를 ChatGPT에 통합함.

오랫동안 Claude Code를 사용해 온 한 사용자가 Hacker News에 게시한 내용에 따르면, 이 도구의 성능이 4.7 및 4.8 릴리스 이후 "엄청나게 악화(immensely worse)"되었습니다. 출력 스타일만으로 모델 교체를 식별할 수 있다고 주장하는 이 사용자는 두 가지 주요 실패 사례를 보고했습니다. 에이전트가 요청 사항의 거의 4분의 1을 지속적으로 놓치고 있으며, 이는 시간이 지남에 따라 코드 비대화(bloat)로 이어지고, 리뷰 과정에서 기존 코드를 읽거나 도구(tools)를 제대로 사용하는 데 문자 그대로 실패한다는 점입니다.

이 사용자는 대안으로 OpenAI의 Codex를 시도해 보았으며, "내가 필요로 하는 정확한 변경 사항에 대해 놀라울 정도로 정밀하며, 거의 95%의 확률로 신뢰할 수 있다"는 점을 발견했습니다. 하지만 Codex는 ASCII 블록 다이어그램이나 아이디어 생성과 같은 Claude 특유의 "재치(flair)"와 창의적인 표현력이 부족합니다. 이 사용자는 현재 워크플로우를 분리하여 브레인스토밍에는 Claude를, 실행에는 Codex를 사용하고 있습니다.

신뢰성과 창의성의 트레이드오프 (tradeoff)

이 불만 사항은 코딩 에이전트(coding agents)에서 나타나는 광범위한 패턴, 즉 정밀도(precision)와 탐색(exploration) 사이의 긴장 관계와 일치합니다. Claude Opus 4.6 및 이후 모델을 기반으로 구축된 Claude Code는 대화의 폭과 도구 사용(예: MCP, Playwright)을 우선시합니다. OpenAI의 문서에 따르면 Codex 5.3은 결정론적(deterministic) 코드 생성에 최적화되어 있습니다. 사용자의 경험은 Anthropic이 4.6 이후 더 많은 기능과 창의적인 출력을 추진함에 따라 신뢰성이 저하되었음을 시사하며, 이는 모델의 아키텍처나 에이전트의 도구 사용 루프(tool-use loop)에 내재된 트레이드오프일 수 있습니다.

커뮤니티 정서 및 역사적 맥락

이 HN(Hacker News) 게시물은 작성 시점을 기준으로 추천수 5점과 댓글 0개를 기록하고 있으며, 이는 이것이 합의된 의견이 아닌 초기 신호임을 나타냅니다. 하지만 이는 80배의 성장 이후 Claude Code의 사용 제한이 두 배로 늘어났다는 당사의 이전 보도와 맥락을 같이하며, 급격한 채택이 품질 저하를 초래했을 수 있음을 시사합니다. "Claude가 무언가를 완료했다고 말할 때 믿지 마세요"라는 사용자의 조언은 AI가 생성한 코드를 항상 검토해야 한다는 개발자들의 공통된 격언을 반영합니다.

주목할 점은, 사용자가 이 성능 퇴보(regression)의 원인을 기반 모델이 아닌 4.7 및 4.8 릴리스(release)로 지목했다는 것입니다. Claude Code는 Claude Opus 4.6(및 이후 모델) 위에 구축된 제품 계층(product layer)이므로, 문제는 LLM 자체보다는 에이전트의 지시 이행(instruction-following) 또는 도구 사용(tool-use) 로직에 있을 수 있습니다. Anthropic은 이 문제를 공개적으로 인정하지 않았습니다.

Codex의 부상이 의미하는 것

이 일화는 OpenAI가 Codex를 ChatGPT에 통합하고 단독 API를 중단하는 시점에 등장했습니다. 만약 Codex가 ChatGPT 내부의 기본 코딩 에이전트가 된다면, 그 신뢰성 우위는 Claude Code의 4.6 이후 성능 저하(drift)에 실망한 사용자들을 끌어들일 수 있습니다. 반대로, Anthropic은 기존 사용자를 유지하기 위해 Claude Code의 지시 준수(instruction adherence) 능력을 강화해야 할 수도 있습니다.

관전 포인트

Anthropic이 이러한 품질 퇴보에 어떻게 대응하는지, 그리고 Claude Code 4.9 또는 모델 업데이트가 지시 이행(instruction-following) 문제를 해결하는지 지켜봐야 합니다. 또한, 통합 이후 ChatGPT 내에서의 Codex 채택 추이를 추적해야 하며, 만약 Claude Code의 신뢰성이 개선되지 않는다면 이 과정은 가속화될 수 있습니다.

출처: news.ycombinator.com

원문 게시: gentic.news

Insights

Claude Code 4.6 이후 품질 저하, 사용자들은 25%의 작업 실패율 보고

요약

핵심 포인트

신뢰성과 창의성의 트레이드오프 (tradeoff)

커뮤니티 정서 및 역사적 맥락

Codex의 부상이 의미하는 것

관전 포인트

댓글

데이터 유출 및 네트워크 제한 우회에 대한 AI 에이전트 샌드박스 테스트 방법

대시보드를 넘어: SigNoz Telemetry를 이해하는 AI SRE 에이전트 구축하기

내 브라우저 에이전트가 느렸던 이유는 GPT-5 때문이 아니라 프롬프트에 쓰레기를 계속 집어넣었기 때문이었다

한 클라이언트가 ChatGPT를 통해 나를 찾아낸 방법 — 그리고 이것이 AI 검색을 위한 구축에 대해 내게 가르쳐준 것

데이터 유출 및 네트워크 제한 우회에 대한 AI 에이전트 샌드박스 테스트 방법

대시보드를 넘어: SigNoz Telemetry를 이해하는 AI SRE 에이전트 구축하기

내 브라우저 에이전트가 느렸던 이유는 GPT-5 때문이 아니라 프롬프트에 쓰레기를 계속 집어넣었기 때문이었다

한 클라이언트가 ChatGPT를 통해 나를 찾아낸 방법 — 그리고 이것이 AI 검색을 위한 구축에 대해 내게 가르쳐준 것