Claude Code의 '작업 언어'를 영어로 전환하면 토큰은 정말로 줄어들까? A/B 실측 결과

일본어는 영어보다 LLM의 토큰 효율이 나쁘다 (같은 내용으로 대략 2~3배. 논문 존재)
그래서 "일본어 지시를 최경량 모델로 영작하고, 이후의 작업은 영어로 수행하며, 최종 답변만 일본어로 반환하는" 스킬
work-in-english를 만들어 Claude Code에 통합 - 조건을 동일하게 맞춘 A/B 실측 결과:
단기 태스크(1분 정도)에서는 효과 없음. 오히려 스킬 기동 오버헤드로 인해 오히려 소비가 증가 (출력 토큰 +60%)
장기 태스크(수 분·다수 파일 조사 + 장문 리포트)에서는 총 토큰 약 16% 절감 (캐시 읽기(Cache Read)는 −38%)

Anthropic에서 Claude 5 패밀리의 최상위 모델인 Claude Fable 5가 출시되었습니다. Opus보다 상위인 Mythos 클래스라는 위치로, 똑똑한 만큼 토큰을 어떻게 절약하느냐가 이전보다 더욱 중요해집니다.

많은 일본인 엔지니어는 Claude Code를 일본어로 사용하고 있습니다. 여기서 궁금한 점은, 일본어는 영어보다 토큰을 많이 소비한다는 문제입니다.

이는 체감이 아니라, 연구를 통해 확인된 현상입니다.

Petrov et al.,
"Language Model Tokenizers Introduce Unfairness Between Languages"(NeurIPS 2023, arXiv:2305.15425)

같은 내용의 텍스트라도 언어에 따라 토큰화(Tokenization) 후의 길이가 크게 다르며, 그 차이는 최대 15배에 달한다는 점, 다국어 대응을 의도하여 훈련된 토크나이저(Tokenizer)에서도 격차가 남는다는 점, 결과적으로 일부 언어 사용자는 영어 사용자의 2.5배 이상의 비용을 지불하고 있다는 것을 보여줍니다. 언어별 '토큰 프리미엄(Token Premium)'을 시각화한 인터랙티브 데모 사이트도 있습니다. - Ahia et al.,
"Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models"(EMNLP 2023, arXiv:2305.13707)

API가 '토큰 수 과금' 방식인 점에 따른 언어 간 불공평함을 분석한 논문. 영어는 평균적으로 1 토큰당 약 4글자를 표현할 수 있는 반면, 일본어는 1 토큰당 몇 글자 정도밖에 표현하지 못해, 동일한 정보량에 대해 영어보다 많은 토큰을 필요로 한다는 것을 보여줍니다. - zephel01 님의 note 기사 「LLM에서 일본어를 사용하면 '언어세'를 내고 있다는 게 사실? 같은 문장인데 최대 1.94배의 토큰 소비... 충격적인 데이터가 공개되었습니다」

동일 문장(Sutton의 "The Bitter Lesson"을 9개 언어로 번역)을 주요 6개 모델의 토크나이저로 비교한 검증의 일본어 해설. 일본어는 영어 대비 평균 약 1.48배, 모델에 따라서는 2배 가까이 토큰을 소비한다는 구체적인 수치가 소개되어 있습니다.

요약하자면, 일본어로 생각하게 하고 일본어로 메모를 쓰게 하면, 영어의 1.5~3배의 토큰을 지불하고 있을 가능성이 있다는 것입니다.

그래서 만든 것이 work-in-english라는 Claude Code 스킬입니다. 발상은 단순합니다. 태스크의 '작업 언어'만 영어로 전환하는 것입니다.

사용자 (일본어로 의뢰)
│
▼
...

포인트는 두 가지입니다.

번역은 반드시 최경량 모델(Haiku)의 서브 에이전트(Sub-agent)에게 맡긴다. 메인 모델에게 번역을 시키면 비용 절감이 되지 않습니다. -
최초의 일본어 입력분 입력 토큰은 줄어들지 않는다 (스킬은 프롬프트가 컨텍스트에 들어온 후에 동작하기 때문). 절약할 수 있는 것은 "이후의 사고·중간 메모·멀티 턴(Multi-turn)이 영어가 되는 부분"입니다.

Skill의 내용은 다음과 같습니다.

---
name: work-in-english
description: 반드시 사용해야 함 (긴 작업에 한정) — 사용자의 프롬프트가 일본어이면서, 길고 여러 단계로 이루어진 작업(여러 파일에 걸친 조사·구현·리팩터링, 장문 리포트나 설계서 작성, 멀티 턴(Multi-turn)에 이르는 작업 등, 중간 생성물이 많고 수 분 이상 소요되는 의뢰)이라면, 첫 번째 도구 호출(Tool call) 전에 반드시 이 스킬을 실행한다. 다른 스킬(brainstorming 등)과 병용하는 경우에도 이 스킬을 가장 먼저 실행한다. 동작: 최경량 모델(Haiku) 서브 에이전트가 일본어 프롬프트를 영어로 번역하고(고유명사·코드 식별자·파일 경로·인프라 명칭/ID·전문 용어는 원문 유지), 이후의 사고·도구 조작·중간 메모를 모두 영어로 수행하여 토큰 소비를 억제한다. 최종 응답은 일본어. 실행하지 않는 경우: 짧은 질문·잡담·단순 확인 및 이미 영어로 입력된 경우, 또는 수 분 내에 끝나는 단발성 소규모 작업(1~2개 파일의 독해·소규모 수정·단순 조사) — 실측 결과 번역 및 스킬 로딩의 오버헤드가 절약 효과를 상회함. 효과 실측치: 긴 작업에서 총 토큰 약 15~16% 절감, 짧은 작업에서는 오히려 오버헤드로 인해 증가.
...

3개 층으로 대책을 세웠습니다.

SKILL.md의 description을 명령형으로 강화 ("MUST USE"로 시작, 트리거 예시 나열) CLAUDE.md / AGENTS.md에 필수 실행 규칙 명시 UserPromptSubmit 훅(Hook)을 통해 리마인더 주입

훅은 다음과 같습니다. 일본어 10자 이상이면서 전체 25자 이상의 프롬프트(slash command 제외)를 감지하면, 컨텍스트에 리마인더를 삽입합니다.

#!/bin/bash
# UserPromptSubmit hook:
# 일본어 작업 지시를 감지하면 work-in-english 실행 리마인더를 주입한다
...

실제로 얼마나 줄어드는지 확인하기 위해, 조건을 동일하게 맞춘 A/B 비교를 진행했습니다.

작업: 특정 스크립트와 테스트 파일을 읽고 분석 리포트 작성 (읽기 전용, 약 1분) -
조건: ① 일본어 그대로 작업 ② 영문 번역된 프롬프트로 영어 작업 ③ 일본어 프롬프트만 전달 (스킬에 맡김) - 각 조건 3회, 동일 모델, 최종 답변은 모두 일본어

조건	출력 토큰 평균	소요 시간
① 일본어 그대로 작업	5,837	약 60초
...	9,443 + Haiku 번역분	84~139초

일본어 작업과 영어 작업의 차이는 노이즈 범위 내였습니다. 그리고 스킬을 경유하는 방식은 SKILL.md 로딩·번역 서브 에이전트 실행 및 대기·결과 해석이라는 왕복 과정이 추가되어, **출력 토큰 +60%, 시간 +40~130%**로 명확하게 손해였습니다.

왜 효과가 없을까요? 유력한 설명은 다음과 같습니다.

모델은 일본어 프롬프트라도 내부 사고를 거의 영어로 수행하기 때문에, 프롬프트를 영문으로 번역해도 사고 부분은 변하지 않음
도구 결과(코드)는 원래 영어임
최종 답변은 두 조건 모두 일본어임

즉, 짧은 작업에는 '영어로 전환되어 절약되는 부분'이 거의 존재하지 않는 것입니다.

스킬의 절약 효과가 나타난다면, 일본어 중간 생성물(메모·계획·리포트 초안)이 대량으로 발생하는 긴 작업이어야 합니다. 그래서 다음 실험을 진행했습니다.

작업: 리포지토리의 CI/CD 전체 조사 (문서 + 워크플로 11개 + 설계서 + 스크립트를 읽고, 각 단계에서 불렛 포인트 메모를 작성하며 5장 구성의 상세 리포트 작성). 도구 사용 15~~19회, 2~~3분 규모 -
조건: ① 일본어 그대로 작업 (스킬 명시 금지) ② 영어로 작업 (최종 리포트는 일본어) - 각 조건 3회, 작업 모델은 Haiku

지표 (3회 평균)	① 일본어 작업	② 영어 작업	차이
총 토큰	99,890	83,842	−16%
...
게다가 영어 작업 측은 결과물 텍스트량이 약 2.2배였음에도 불구하고 이 수치가 나왔습니다. 분량을 동일하게 맞춘다면 차이는 더 벌어질 것입니다.

출력 토큰 단독으로는 영어 측이 더 많았지만(리포트를 더 길게 작성했기 때문), 총 소비량에서는 영어 측이 승리했습니다. 핵심은 **캐시 읽기(Cache Read)의 −38%**입니다.

에이전트의 각 턴(Turn)에서는 그때까지의 대화 전체(중간 메모 포함)가 컨텍스트(Context)로서 다시 읽힙니다. 일본어 중간 메모는 토큰 수가 불어나기 때문에, 한 번 작성한 일본어 메모가 이후의 모든 턴에서 '다시 읽기 비용'으로서 복리로 작용하게 됩니다. 작업 언어를 영어로 바꾸면 이러한 축적이 처음부터 가벼워집니다. 이는 논문에서 지적한 토큰 프리미엄(Token Premium)이 멀티 턴(Multi-turn) 상황에서는 곱절로 작용한다는 것을 의미한다고 생각합니다.

두 가지 실험을 통해, 운영 방식은 다음과 같이 정리되었습니다.

태스크	work-in-english
짧은 질문·잡담·한마디 확인	실행되지 않음
몇 분 내로 끝나는 단발성 소규모 태스크 (1~2개 파일 독해·소규모 수정)	실행되지 않음 (오버헤드가 절약 효과를 상회함)
여러 파일 조사·구현·장문 리포트·멀티 턴 작업	실행됨 (총 토큰 약 15~16% 절감)

SKILL.md의 description, CLAUDE.md의 규칙, 훅(Hook)의 리마인더 문구를 모두 '길고 여러 단계가 필요한 태스크 한정'으로 맞추고, 실측값도 명시했습니다. "고민되면 실행"이라는 초기 단계의 공격적인 문구는 철회했습니다.

각 조건 $n=3$인 소규모 실험이며, 태스크도 2종류뿐입니다. 경향은 명확했으나, 수치는 태스크와 모델에 따라 달라집니다.
thinking(사고) 언어는 트랜스크립트(Transcript)에서 직접 확인할 수 없으므로, "내부 사고는 원래 영어였다"는 정황 증거에 기반한 추측입니다.
짧은 태스크의 영어 조건 중 1건은 사용량 기록이 명백히 깨진 run이 있어 평균에서 제외했습니다.
비용 환산은 Haiku의 공표 단가(입력/출력/캐시 읽기·쓰기)로 기계적으로 계산한 개략적인 수치입니다.
"최초의 일본어 입력분"은 원리적으로 줄일 수 없습니다. 거기까지 줄이고 싶다면 훅(Hook)에서의 번역 전처리(프롬프트 자체를 다시 쓰는 작업)가 필요하지만, 이는 사용자 의도 왜곡 리스크를 동반하기 때문에 채택하지 않았습니다.
일본어의 토큰 프리미엄은 실재한다 (Petrov et al. 2023, Ahia et al. 2023)
단, "작업 언어를 영어로 바꾸면 반드시 절약되는 것"은 아니다.
짧은 태스크에서는 스킬의 오버헤드가 더 크고, 긴 태스크에서는 중간 생성물의 복리 효과로 인해 약 15~16% 절감할 수 있었다 - 효과 측정은 조건을 통일한 A/B 테스트로 진행. 이번에는 "대조군이 멋대로 스킬을 실행한다"는, 자동 실행 개선의 성공을 역설적으로 증명하는 사고도 발생했다.
스킬의 실행 조건은 "효과가 있다고 판단되는 영역"으로 좁히는 것이 중요하다. 모든 곳에 적용하려 하면 소규모 태스크에서 조용히 손해를 계속 보게 된다.
Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr, Adel Bibi. "Language Model Tokenizers Introduce Unfairness Between Languages." NeurIPS 2023. arXiv:2305.15425 / 사이트
Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Jungo Kasai, David R. Mortensen, Noah A. Smith, Yulia Tsvetkov. "Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models." EMNLP 2023. arXiv:2305.13707
zephel01. 「LLM에서 일본어를 사용하면 '언어세'를 내고 있다는 게 사실? 같은 문장인데 최대 1.94배의 토큰 소비... 충격적인 데이터가 공개되었습니다」 note, 2026-04-30
Claude Fable 5 / Mythos 5 발표

Insights

Claude Code의 '작업 언어'를 영어로 전환하면 토큰은 정말로 줄어들까? A/B 실측 결과

요약

핵심 포인트

댓글

영감을 받은 포스트: Google이 더 큰 Dense 버전을 출시하지 않아 Gemma 4 31B를 44B 모델(88 레이어)로 확장했습니다

「사람을 늘리는 것 = 분업」은 이제 옛말? AI 에이전트를 전제로 한 개발 팀을 5개월간 운영하며 느낀 점

라틴 아메리카 주식 시장의 랠스에 노출될 수 있는 3가지 ETF

Meta, 남는 AI 컴퓨팅 용량을 판매하기 위한 클라우드 사업 구축 중

영감을 받은 포스트: Google이 더 큰 Dense 버전을 출시하지 않아 Gemma 4 31B를 44B 모델(88 레이어)로 확장했습니다

「사람을 늘리는 것 = 분업」은 이제 옛말? AI 에이전트를 전제로 한 개발 팀을 5개월간 운영하며 느낀 점

라틴 아메리카 주식 시장의 랠스에 노출될 수 있는 3가지 ETF

Meta, 남는 AI 컴퓨팅 용량을 판매하기 위한 클라우드 사업 구축 중