
Claude Code의 비영어 출력 품질 저하 — 한국어 속어 18배 빈도 발생과 4가지 축의 정리 및 이용자 측의 3가지 대응
요약
Claude Code의 Opus 4.7 업데이트 이후 한국어 등 비영어권 출력 품질이 저하되는 현상을 분석합니다. 특히 격식 있는 문맥에서 한국어 속어 사용 빈도가 18배 급증하는 등 언어별 격식 캘리브레이션 약화 문제가 보고되었습니다.
핵심 포인트
- Opus 4.7에서 한국어 속어 '박다' 사용 빈도 18배 급증
- 영어 중심 가중치 편향으로 인한 비영어권 레지스터 붕괴
- 모델의 자기 진단(Self-diagnosis)을 통한 결함 검출 한계
- 터키어 및 일본어에서도 유사한 언어 품질 저하 신호 관찰
Claude Code의 Opus 4.6에서 Opus 4.7 단계로 넘어가면서 비영어(non-English) 출력의 품질이 저하되는 현상입니다. 핵심적인 신호는 한국어 속어 "박다" (bakda, 「打ち込む」)의 빈도가, 격식 있는 레지스터 (formal registry)에서 사용되어야 할 동사 ("명시하다" / "기록하다" / "삽입하다")를 대체하여 18배 증가했다는 정밀한 수치적 기술 (articulate)입니다.
114.9M output tokens를 대상으로 Kiwi 형태소 분석을 실시하였으며, 2026년 3월 21일부터 5월 25일까지의 4,666개 세션을 분석했습니다. v2.1.126 (5월 3일7일)에서 6.6배, 17일)에서 18.0배, v2.1.132 (5월 8일v2.1.143 (5월 18일~25일)에서 17.9배 증가했습니다. 6.6배에서 18.0배로 급증한 지점은 v2.1.132 단계의 신호로, 학습 수정의 특정 경로가 입력되었음을 나타냅니다.
주요 이슈 제기는 #62961 (eiaserinnys 님, 2026년 5월 28일 작성, 반응 7건, 댓글 2건)이며, area:model 라벨이 붙은 has-repro 이슈입니다.
수집된 내용 중 4가지 독립적인 하위 양식이 기술 (articulate)되었습니다. 공통적인 단서는 「언어별 격식 (formality)의 캘리브레이션 (calibration) 약화」 구조로, 모델 (model) 학습 단계에서 「영어 중심의 가중치 (weight)」 편향으로 인해 비영어 출력 품질이 저하되는 현상입니다.
-
핵심 이슈 #62961에서 기술 (articulate). 한국어 속어 "박다"의 빈도가 18배 증가. Kiwi 형태소 분석 방법론을 통해 114.9M output tokens 단계에서
박/VV와박히/VV형태소 빈도를 집계한 정밀한 신호. -
한국어 단어 "영역" (yeong-yeok, 「領域」)이 관련 없는 출력에 빈번하게 삽입되는 현상. 이슈 #54339 (2026년 5월 초 작성),
v2.1.121+Opus 4.7조합에서 관찰. -
모델 (model) 스스로가 영향을 받은 모드 (mode) 중에서 자기 진단 (self-diagnose)을 통해 결함을 확실히 검출하지 못하는 현상. 이슈 #57748에서 기술 (articulate). 이는 모델 (model) 내부의 언어 품질 저하가 모델 (model) 자신의 자기 평가 (self-evaluation) 경로로 전파되는 구조적 신호.
-
터키어 출력에서 영어 문법의 템플릿 구조 (templated structure: calque, word order, register, grammatical particles, idiom literalism, context-inappropriate vocabulary의 6가지 오류 분류)가 나타나는 현상. 이슈 #57233에서 기술 (articulate). 보고자는 "영어의 템플릿화된 추론 (templated reasoning)이 어휘적으로 번역 (lexically translated)된 것이지, 네이티브 터키어 생성 (native Turkish generation)이 아니다"라고 주장.
저 (yurukusa)는 2026년 3월부터 5월 사이, 일본어 Qiita와 Zenn의 글을 작성하는 과정에서 격식 있는 레지스터 (formal register)의 저하 신호를 관찰했습니다. #62961의 Kiwi 방법론을 통한 정밀한 수치(18배)와 비교했을 때, 일본어 측의 체감 신호는 2배에서 4배 정도의 저하 신호였습니다. 이는 동일한 유형의 레지스터 붕괴 (register collapse) 구조이며, 언어별 격식 (formality)의 캘리브레이션 (calibration) 약화의 지문 (fingerprint)입니다.
구체적인 신호:
- 격식 있는 기술 문서 프롬프트 (prompt)에서 대화체 레지스터 (conversational-register) 출력이 발생하는 현상
- 「articulate」 「organize」 「mapping」 등 영어 차용어의 빈도 증가 신호
- 공식 문서의 어조로 요청한 출력에서 평이한 어조의 출력이 발생하는 현상
저의 신호는 체감 단계의 것이며, #62961의 정밀한 수치 방법론을 일본어 MeCab 형태소 분석에 적용하여 동일한 유형의 수치적 신호를 확보할 예정입니다.
수집된 4가지 사례는 도구로 예방할 수 있는 범위가 가장 좁은 사례들입니다. 모델 (model) 학습 단계의 품질 신호이며, 훅 (hook) 계층이 닿을 수 없는 범위 밖의 현상입니다.
/model claude-opus-4-6 명령을 통해 Opus 4.6으로 되돌리는 경로. Opus 4.6 단계는 수집된 사례들의 신호가 발생하지 않은 상태의 신호 (#62961의 베이스라인 (baseline) 신호)입니다. 단, Opus 4.6...
는 2026년 4월 16일까지 이용 가능하며, 현시점에서는 이용 불가능한 경로.
system-prompt 단계에서 「포멀한 register (어조/격식) 출력 지시」를 명시하는 경로. 예: 「포멀한 기술 문서의 어조로 출력. 속어 사용 불가.」 이용자 측의 정비 경로.
출력 품질의 신호를 획득하는 경로로서, Kiwi (한국어), jieba (중국어), MeCab (일본어), Zemberek (터키어) 등의 형태소 분석 (morphological analysis) 도구로 출력 단어 빈도의 분포를 추적하는 경로. 월간적인 감각 신호의 검증 정비 경로.
cc-safe-setup의 집적 추적 페이지인 cluster-15의 articulate (https://yurukusa.github.io/cc-safe-setup/cluster-tracker.html#cluster-nonenglish-quality)에서 4개 축의 하위 양식에 대한 최신 정리를 공개했습니다.
집적 15의 방어 도구는 0건 출하 신호입니다. 집적 13 (확장 추론의 wedge)이나 집적 14 (Silent Data Loss)와 비교했을 때, 이용자 측의 정비 범위가 좁은 집적이며, cc-safe-setup의 hook 층이 닿지 않는 학습 단계의 신호입니다.
비영어 품질 저하인 집적 15는 5월 단계에서 발화한 3가지 집적 (집적 13 확장 추론의 wedge, 집적 14 Silent Data Loss, 집적 15 비영어 품질 저하) 중에서 도구로 예방할 수 있는 범위가 가장 좁은 집적입니다. 이용자 측 대응의 3가지 경로 중에서 system-prompt의 register 강제가 당면한 주요 경로입니다.
- 핵심 이슈(issue) #62961: https://github.com/anthropics/claude-code/issues/62961
- 이슈 #62961에 대한 심층적인 영어 답글 (집적 15의 4개 축 articulate): https://github.com/anthropics/claude-code/issues/62961#issuecomment-4580788598
- 집적 13 (확장 추론의 wedge)의 articulate: https://qiita.com/yurukusa/items/b1dfd8897374768a9fd5
- cc-safe-setup의 집적 추적 페이지: https://yurukusa.github.io/cc-safe-setup/cluster-tracker.html#cluster-nonenglish-quality
- cc-safe-setup의 영어 장문 정리 (집적 15): https://gist.github.com/yurukusa/9b882f7009d36ad5477c46f890272acc
월간 구독 모음의 2027년 3월호 주제 후보로서 집적 15의 articulate 정비 경로. 5월호 (cache_control)부터 1월호 (집적 12 tool call parsing) 및 2월호 (집적 13 확장 추론의 wedge)까지의 10개월 연속성 유지 경로의 연장.
cc-safe-setup의 약 800건의 hook (무료)은 GitHub에서 자유롭게 이용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기