본문으로 건너뛰기

© 2026 Molayo

Simon헤드라인2026. 05. 02. 15:26

최근 Claude Code 품질 보고서에 대한 업데이트

요약

최근 Claude Code 사용자들이 보고한 낮은 코드 품질 문제는 모델 자체의 결함이 아닌, Anthropic이 배포한 '하니스(harness)'에서 발생한 세 가지 복잡하고 실질적인 버그 때문인 것으로 밝혀졌습니다. 특히, 비활성화되었던 세션을 재개할 때 지연 시간을 줄이기 위해 구현된 기능이 의도치 않게 매 턴마다 실행되면서 Claude가 기억을 잃거나 반복적으로 행동하는 문제를 일으켰습니다. 에이전트 시스템을 구축하거나 장시간 방치된 세션을 자주 사용하는 사용자들은 이와 같은 하니스 관련 버그에 주의해야 합니다.

핵심 포인트

  • Claude Code의 품질 저하 문제는 모델 자체의 문제가 아닌, Anthropic의 '하니스(harness)'에서 발생한 소프트웨어 버그가 원인입니다.
  • 특정 버그는 비활성화된 세션을 재개할 때 지연 시간을 줄이려던 기능이 의도치 않게 매 턴마다 실행되면서 Claude의 일관성 및 기억력에 문제를 일으켰습니다.
  • 장시간 방치되었거나 '만료된(stale)' 세션에서 프롬프트를 입력하는 경우, 일반적인 세션보다 더 많은 시간과 주의가 필요할 수 있습니다.
  • LLM 기반 에이전트 시스템을 구축하거나 복잡한 워크플로우를 다루는 개발자는 모델 자체의 비결정론적 특성 외에 하니스를 포함한 인프라 버그에 대한 이해가 필수적입니다.

최근 Claude Code 품질 보고서에 대한 업데이트 (via) 지난 두 달 동안 Claude Code 가 더 낮은 품질의 결과를 제공한다는 많은 불만이 사실 기반의 실제 문제에서 비롯된 것으로 밝혀졌습니다.

모델 자체는 비난 대상이 아니었으나, Claude Code 의 하니스(harness) 에서 발생한 세 가지 별도의 문제가 복잡하면서도 실질적인 문제를 일으켰고, 이는 사용자에게 직접적인 영향을 미쳤습니다.

Anthropic 의 사후 분석(postmortem) 은 이러한 문제들을 자세히 설명하고 있습니다. 특히 저에게 인상 깊었던 내용은 다음과 같습니다.

3 월 26 일에는 사용자가 해당 세션을 재개할 때 지연 시간을 줄이기 위해 1 시간 이상 비활성화되었던 세션에서 Claude 의 이전 사고(thinking) 를 지우는 변경 사항을 배포했습니다. 그러나 버그로 인해 이 작업이 세션 내의 한 번만 수행되는 것이 아니라 각 턴(turn)마다 계속 발생하게 되어, Claude 가 기억력이 없거나 반복적인 것처럼 보였습니다.

저는 Claude Code 세션을 1 시간 (또는 종종 하루 이상) 동안 방치한 후 다시 돌아오는 경우를 자주 사용합니다. 현재 저의 시스템에는 ps aux | grep 'claude ' 명령어로 확인된 것과 같이 그러한 세션이 11 개 있습니다. 이는 며칠 전에 수십 개의 세션을 종료한 이후입니다.

저는 최근 시작한 세션보다 이러한 "만료된(stale)" 세션에서 프롬프트를 입력하는 데 더 많은 시간을 소비한다고 추정합니다.

에전틱 시스템 (agentic systems) 을 구축 중이시라면 이 기사를 자세히 읽어보시는 것이 좋습니다. 모델 자체의 본질적인 비결정론적 성격을 배제하더라도 하니스에 영향을 미치는 버그는 매우 복잡합니다.

최근 기문

  • LLM 0.32a0 은 주요 호환성 유지 개조 (major backwards-compatible refactor) - 2026 년 4 월 29 일
  • 이제 사망한 OpenAI Microsoft AGI 조항의 역사 추적 - 2026 년 4 월 27 일
  • DeepSeek V4 - 거의 최전선 수준, 가격의 일부 - 2026 년 4 월 24 일

AI 자동 생성 콘텐츠

본 콘텐츠는 Simon Willison Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0