Claude Code 성능 저하 보고서 분석 및 개선 사항 (Anthropic)

최근 사용자 커뮤니티에서 제기된 Claude의 응답 품질 저하 문제에 대해 Anthropic이 상세한 사후 보고서(postmortem)를 발표하며 투명하게 대응하고 있습니다. 이 문제는 단순히 모델 자체의 성능 하락이 아니라, 제품 사용 경험을 개선하기 위해 도입된 세 가지 별개의 변경 사항들(Claude Code, Claude Agent SDK, Claude Cowork)에서 기인했습니다. 다행히 API 및 추론 계층(inference layer)은 영향을 받지 않았습니다.

1. 성능 저하의 원인 분석:

Anthropic은 사용자들이 경험한 품질 저하를 심각하게 받아들이고, 근본적인 원인을 파악했습니다. 초기에는 매우 긴 지연 시간(very long latency)을 줄이기 위해 'High' 모드 설정을 조정하는 과정에서 문제가 발생했습니다. 이로 인해 일부 사용자들은 UI가 멈춘 것처럼 보이는 현상을 경험했으며, 이는 잘못된 트레이드오프였습니다.

이후 모델의 기본 사고 노력 수준(default reasoning effort) 설정에 대한 논쟁이 있었습니다. 원래 Opus 4.6을 출시하며 높은 추론 노력을 기본값으로 했으나, 사용자들이 가끔 너무 오래 생각하여 지연 시간이 길어지고 토큰 사용량이 과도하게 발생하는 문제를 보고했습니다. 이에 따라 'Medium' 설정을 기본값으로 전환했으나, 사용자들은 Claude Code가 덜 지능적이라고 느끼기 시작했고 결국 4월 7일부로 Opus 4.7은 xHigh, 다른 모델은 High로 복구하는 결정을 내렸습니다.

2. 핵심 버그: 사고 기록(Thinking History) 관리 오류:

가장 치명적인 문제는 '사고 과정'을 효율적으로 관리하려던 시도에서 발생했습니다. Anthropic은 세션이 1시간 이상 비활성화되면 비용 절감을 위해 이전의 사고 기록 섹션을 정리하는 기능을 구현했습니다. 그러나 이 구현에 버그가 있었습니다.

원래 의도는 캐시 미스(cache miss)를 줄이는 것이었으나, 실제로는 세션의 모든 턴(turn)마다 사고 기록을 완전히 삭제하도록 요청하게 되었습니다. 그 결과, Claude는 이전 대화에서 왜 특정 편집이나 도구 호출을 했는지에 대한 기억(memory)을 점진적으로 잃게 되었고, 이는 사용자들 사이에서 보고된 '기억력 상실(forgetfulness)', 반복적인 응답, 그리고 부적절한 도구 선택 등의 현상으로 나타났습니다.

3. 후속 조치 및 재발 방지:

이러한 복합적인 버그는 Claude Code의 컨텍스트 관리, Anthropic API, 확장된 사고 과정(extended thinking)이 교차하는 지점에서 발생했습니다. Anthropic은 이번 사태를 계기로 사용량 제한을 모든 구독자에게 초기화 조치했으며, 향후 유사한 문제가 재발하지 않도록 시스템 개선에 집중할 것임을 약속했습니다.

Insights

Claude Code 성능 저하 보고서 분석 및 개선 사항 (Anthropic)

요약

핵심 포인트

댓글

MM-COVID: COVID-19 허위 정보 대응을 위한 다국어 및 다중 모달 데이터 저장소

당뇨병 환자를 위한 오픈 소스 및 무료 앱 GlycoGuide 개발 소식

【사이버 보안 동향 분석】

Timeline Studio: 웹 브라우저에서 음성, 자막, 크로마키를 한 번에 해결하는 영상 편집 도구

MM-COVID: COVID-19 허위 정보 대응을 위한 다국어 및 다중 모달 데이터 저장소

당뇨병 환자를 위한 오픈 소스 및 무료 앱 GlycoGuide 개발 소식

【사이버 보안 동향 분석】

Timeline Studio: 웹 브라우저에서 음성, 자막, 크로마키를 한 번에 해결하는 영상 편집 도구