[모델] 2 월 업데이트 이후 Claude Code 가 복잡한 엔지니어링 작업에 사용 불가능하다 #42796
요약
이 기술 보고서는 Claude Code 모델의 2월 업데이트 이후 복잡한 엔지니어링 작업 수행 능력이 현저히 퇴보했음을 주장합니다. 분석 결과, 이 품질 저하는 `thinking content redaction` 기능 배포 시점과 정확하게 일치하며, 이는 모델이 다단계 추론 및 신중한 코드 수정을 위해 필요한 '사고 과정(thinking)'의 깊이가 감소했기 때문입니다. 보고서는 Anthropic 측에 복잡한 워크플로우를 사용하는 파워 유저들을 위해 사고 과정을 유지하거나 재개할 것을 강력히 촉구합니다.
핵심 포인트
- Claude Code는 2월 업데이트 이후 복잡하고 장기적인 엔지니어링 작업에서 신뢰성을 크게 상실했습니다.
- 품질 저하의 원인은 `thinking content redaction` 기능 배포와 직접적으로 연관되어 있으며, 이로 인해 모델이 필요한 추론 깊이를 확보하지 못하게 되었습니다.
- 모델의 '사고 과정(thinking)'은 단순한 추가 정보가 아니라, 다단계 연구, 관습 준수, 신중한 코드 수정을 위해 구조적으로 필수적인 요소입니다.
- 보고서는 Anthropic에게 파워 유저들의 복잡한 워크플로우를 지원하기 위해 사고 토큰 할당에 대한 재고를 요청합니다.
[MODEL] Claude Code 는 2 월 업데이트 이후 복잡한 엔지니어링 작업에 사용 불가능하다 #42796
설명
사전 점검 체크리스트
- 유사한 행동 보고를 위한 기존 이슈 검색 완료
- 이 보고는 민감한 정보를 포함하지 않음 (API 키, 비밀번호 등)
문제 유형
기타 예상치 못한 행동
Claude 에 요청한 작업
Claude 는 복잡한 엔지니어링 작업을 수행할 만큼 신뢰할 수 없게 퇴보했습니다.
Claude 가 실제로 한 일
- 지시사항 무시
- 잘못된 "가장 간단한 수정" 주장
- 요청된 활동의 반대 수행
- 지시사항에 대한 완료 주장
예상 행동
Claude 는 1 월과 같은 방식으로 행동해야 합니다.
영향 받은 파일
권한 모드
수정 수락은 ON 상태 (변동 자동 수락)
재현 가능한가?
네, 동일한 프롬프트로 항상 재현 가능
재현 단계
응답 없음
Claude 모델
Opus
관련 대화
영향
높음 - 상당한 의도치 않은 변경
Claude Code 버전
다양한/모두
플랫폼
Anthropic API
추가 컨텍스트
우리는 매우 일관되고 복잡한 작업 환경에서 매우 높은 복잡도를 가지고 있으며, 몇 달간의 로그를 채굴하여 왜인지 이해했습니다. -- 본질적으로 -- 2 월부터 우리는 복잡한 엔지니어링 작업을 수행하는 퇴보를 관찰했습니다. 분석은 로그에서 비롯되었으며 모든 공개된 우회법이 시도되었습니다. Claude 는 우리에게 좋았습니다. 우리는 Anthropic 이 이러한 우려를 해결할 수 있기를 바라며 이 보고를 남깁니다.
Senior Engineering 워크플로우에 대한 Extended Thinking 은 부하를 지지합니다
이 분석은 1 월에서 3 월까지의 세션 로그 데이터를 분석하여 Claude 가 생성했습니다.
요약
6,852 Claude Code 세션 파일에 걸친 17,871 thinking blocks 과 234,760 도구 호출에 대한 정량적 분석은 thinking content redaction (redact-thinking-2026-02-12)
의 배포가 복잡한, 긴 세션 엔지니어링 워크플로우에서 측정된 품질 퇴보와 정확히 일치함을 보여줍니다.
데이터는 extended thinking tokens 가 "nice to have" 가 아니라 모델이 다단계 연구, 관습 준수, 그리고 신중한 코드 수정을 수행하기 위해 구조적으로 필요함을 시사합니다. Thinking depth 가 감소하면 모델의 도구 사용 패턴은 연구 우선에서 편집 우선으로 측정 가능한 방식으로 전환되어 사용자가 보고한 품질 문제가 발생합니다.
이 보고는 Anthropic 이 power users 의 thinking token 할당에 대한 결정을 inform 하는 데 도움이 될 워크플로우가 가장 영향을 받고 있는 이유를 이해하는 데 데이터를 제공합니다.
1. Thinking Redaction 타임라인은 품질 퇴보와 일치합니다
세션 JSONL 파일의 thinking blocks 분석:
| 기간 | Thinking 가시화 | Thinking Redacted |
|---|---|---|
| Jan 30 - Mar 4 | 100% | 0% |
| ... | Mar 8 | |
| 41.6% | ||
| 58.4% | ||
| Mar 10-11 | <1% | >99% |
| Mar 12+ | 0% | 100% |
품질 퇴보는 March 8 에 독립적으로 보고되었습니다 - redacted thinking blocks 가 50% 를 초과한 정확한 날짜입니다. 배포 패턴 (1 주간에 걸쳐 1.5% → 25% → 58% → 100%) 은 단계적 배포와 일치합니다.
2. Redaction 이전 Thinking Depth 는 감소했습니다
thinking blocks 의 signature 필드는 thinking content 길이와 0.971 Pearson 상관관계를 가집니다 (두 가지가 모두 존재하는 7,146 개의 쌍에서 측정됨). 이는 redaction 이후에도 thinking depth 를 추정할 수 있게 합니다.
| 기간 | Est. Median Thinking (chars) | vs Baseline |
|---|---|---|
| Jan 30 - Feb 8 (baseline) | ~2,200 | — |
| ... | ||
| Thinking depth 는 redaction 이 시작되기 전에 늦은 2 월에 이미 약 67% 감소했습니다. 초기 3 월의 redaction 배포는 사용자에게 보이지 않게 만들었습니다. |
3. 행동 영향: 측정된 품질 지표
이 지표들은 thinking 분석이 수행되기 전에 18,000+ 사용자 프롬프트에서 독립적으로 계산되었습니다.
| 지표 | Mar 8 이전 | Mar 8 이후 | 변경 |
|---|---|---|---|
| Stop hook 위반 (laziness guard) | 0 | 173 | 0 → 10/일 |
| ... | |||
Stop hook (stop-phrase-guard.sh) | |||
| 은 프로그래밍적으로 catc |
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Claude Code Search의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기