Dev.to헤드라인2026. 05. 16. 06:02

CLAUDE.md는 턴당 7,000개 이상의 토큰을 낭비하며, 기술(Skills)은 50개로 줄어듭니다

요약

1,000줄 분량의 CLAUDE.md와 같은 방대한 지침을 매 대화 턴마다 컨텍스트에 주입하는 것은 모델에게 이미 알려진 정보를 반복적으로 제공하여 토큰을 비효율적으로 소모하게 만듭니다. 반면, 점진적 공개(Progressive Disclosure) 원칙을 따르는 '기술(Skills)'은 필요한 정보만 적시에 로드하여 토큰 낭비를 최소화합니다. 개발자들은 성공적인 워크플로우를 먼저 실행하고 그 결과를 바탕으로 기술을 구축하는 재귀적 접근 방식을 취해야 합니다.

핵심 포인트

CLAUDE.md와 같은 방식은 모델이 이미 아는 지침을 반복적으로 주입하여 턴당 수천 개의 토큰을 비효율적으로 소모합니다.
점진적 공개(Progressive Disclosure)를 활용하는 '기술(Skills)'은 필요한 정보만 적시에 로드하여 컨텍스트 효율성을 극대화하고 토큰 사용량을 대폭 줄입니다.
에이전트 설정의 대부분(95%)은 방대한 CLAUDE.md가 필요하지 않으며, 예외는 독점적인 내부 방법론 등 고유한 경우에 한정됩니다.
기술 구축은 성공적인 워크플로우를 먼저 실행하고 그 결과를 바탕으로 점진적으로 개선하는 재귀적 과정(workflow → run → skill → failure → fix)을 거쳐야 합니다.
컨텍스트 창이 과도하게 채워지면 모델의 성능 저하가 발생하므로, 컨텍스트 위생(Context Window Hygiene) 유지가 중요합니다.

1,000줄에 달하는 CLAUDE.md는 모델이 이미 알고 있는 지침에 대해 턴당 7,00010,000개의 토큰을 소모합니다. 점진적 공개 (Progressive Disclosure)를 사용하는 기술 (Skills)은 이를 약 50개 토큰으로 줄입니다. Claude Code에서 1,000줄의 CLAUDE.md는 턴당 7,00010,000개의 토큰을 소모합니다. 개발자 Abd Rahman Saber Abdo의 상세 분석에 따르면, 이는 모델이 코드베이스를 읽음으로써 이미 알고 있는 지침들입니다.

주요 사실:

1,000줄의 CLAUDE.md = 턴당 7,000~10,000 토큰 소모.
기술 (Skills) 로드 시 약 50 토큰 소모 vs CLAUDE.md의 7K+ 토큰 소모.
에이전트 설정의 95%는 CLAUDE.md가 필요하지 않음.
컨텍스트 활용도 (Context Utilization)가 85%인 모델은 30%인 모델보다 측정 가능한 수준으로 성능이 저하됨.
재귀적 기술 구축 (Recursive skill building): 워크플로우(workflow) → 실행(run) → 기술(skill) → 실패(failure) → 수정(fix).

이러한 의식은 AI 코딩 에이전트 전반에 퍼져 있습니다. CLAUDE.md를 만들고, 프레임워크, 코딩 스타일, 응답 톤을 나열합니다. 이는 생산적으로 느껴집니다. 하지만 개발자 Abd Rahman Saber Abdo는 기술적 심층 분석에서 이것이 에이전트를 더 멍청하게 만들고 돈을 낭비하게 할 가능성이 높다고 주장합니다 [출처에 따름].

핵심 요약:
1,000줄의 CLAUDE.md는 모델이 이미 알고 있는 지침에 대해 턴당 7,000~10,000개의 토큰을 소모합니다. 점진적 공개 (Progressive Disclosure)를 사용하는 기술 (Skills)은 이를 약 50개 토큰으로 줄입니다.

토큰 계산 (The Token Math):
CLAUDE.md 파일이 있으면, 그 전체 내용이 매 대화 턴이 시작될 때마다 컨텍스트 창 (Context Window)에 주입됩니다. 단 한 번이 아니라, 매 턴마다 주입됩니다. 1,000줄의 파일은 대략 7,000~~10,000 토큰입니다. 이를 20~~30회의 주고받는 대화가 포함된 긴 세션 전체에 곱해보면, 모델이 이미 알고 있는 지침에 사용 가능한 컨텍스트의 상당 부분을 낭비하게 됩니다. CLAUDE.md에 "이 프로젝트는 React를 사용합니다"라고 작성하는 것은, 모델이 package.json을 보고 스스로 알아낼 수 있는 내용을 말해주는 것입니다. .ts 파일로 가득 찬 프로젝트에 "TypeScript를 사용하세요"라고 쓰는 것은 당연한 사실을 말하기 위해 토큰을 낭비하는 것입니다 [출처에 따름].

95%의 사례 — 압도적인 대다수의 에이전트 설정 — 는 CLAUDE.md가 전혀 필요하지 않습니다.

예외적인 경우는 진정으로 독점적인 정보(proprietary information)를 가지고 있을 때입니다. 즉, 회사의 내부 방법론, 코드에서 유도할 수 없는 특정 도메인 컨벤션(domain convention), 모델이 추론할 방법이 없는 무언가 같은 경우입니다. 그것이 바로 5%에 해당합니다 [출처에 따름].

기술(Skills)과 점진적 공개(Progressive Disclosure)
기술(skill) 파일은 겉보기에는 CLAUDE.md와 유사해 보입니다. 이름, 설명, 그리고 상세한 지침 본문으로 구성된 마크다운(markdown) 파일입니다. 차이점은 그것이 컨텍스트(context)에 로드되는 방식에 있습니다. CLAUDE.md의 경우 전체 내용이 항상 존재합니다. 반면 기술(skill)의 경우, 이름과 설명만이 컨텍스트에 주입됩니다. 본문은 에이전트(agent)가 그것이 관련이 있다고 판단할 때까지 디스크에 남아 있습니다. 따라서 매 턴마다 7,000개의 토큰을 낭비하는 대신, 에이전트에게 "이 기술이 존재하며, 대략 용도는 다음과 같습니다"라고 알려주는 두 문장 정도인 약 50개의 토큰만을 사용하게 됩니다. 에이전트가 해당 설명과 일치하는 작업을 만나면 나머지 내용을 읽습니다. 그렇지 않으면 읽지 않습니다 [출처에 따름]. 이것이 점진적 공개(progressive disclosure)입니다. 에이전트는 모든 것을 항상 들고 다니는 대신, 필요한 것을 그때그때 가져다 씁니다.

가장 큰 실수: 가르치기 전에 기술(Skills)을 작성하는 것
성공적인 실행 기록 없이 작성된 기술(skill)은 그저 추측에 불과합니다. 에이전트는 귀하의 특정 컨텍스트에서 무엇이 "좋은" 상태인지에 대한 참조(reference)가 없습니다. 에이전트는 단계를 기계적으로 따를 것이며, 예상하지 못한 예외 사례(edge cases)에 직면하여 조용히 실패하거나 지침의 공백을 환각(hallucination)으로 메우며 나아갈 것입니다 [출처에 따름].
올바른 순서: 워크플로(workflow)를 식별하고, 에이전트와 함께 단계별로 진행하며, 성공적인 실행을 얻었다면 에이전트에게 그것을 바탕으로 기술(skill)을 생성하도록 요청한 다음, 계속해서 반복(iterate)하십시오. 이것은 재귀적 기술 구축(recursive skill building)입니다: 워크플로(workflow) → 성공적인 실행(successful run) → 기술(skill) → 실패(failure) → 수정(fix) → 기술 업데이트(update skill) → 반복 [출처에 따름].

컨텍스트 창 위생(Context Window Hygiene)
컨텍스트 창(context window)이 채워질수록 모델의 품질은 저하됩니다. 깨끗한 컨텍스트 창은 빠르고 날카롭습니다.

파일 내용, 도구 호출(tool calls), 다회차 대화 기록(multi-turn conversation history) 등으로 컨텍스트 창이 채워질수록 성능은 저하됩니다. 극적으로는 아니더라도 눈에 띄게 저하됩니다. 컨텍스트 활용률이 85%인 모델은 30%인 동일 모델보다 측정 가능한 수준으로 성능이 떨어집니다. 비대해진 CLAUDE.md는 이를 가속화합니다. 실제 작업이 시작되기도 전에 정적인 지침들로 컨텍스트를 채우고 있는 것입니다. 기술(Skills)은 실제로 중요한 것들, 즉 실시간 대화, 관련 코드, 도구 출력값들을 위해 그 공간을 확보해 둡 [출처에 따름]. 멘탈 모델(Mental model): 컨텍스트 창을 작업 기억(working memory)처럼 취급하세요. 찾아볼 수 있는 것들로 채우지 마세요. 지금 당장 일어나고 있는 일들로 채우세요 [출처에 따름].

서브 에이전트(Sub-Agents) 및 확장성(Scaling)에 대하여
동일한 논리가 멀티 에이전트(multi-agent) 설정에도 적용됩니다. 아키텍처가 인상적으로 보이기 때문에 첫날부터 5개의 서브 에이전트를 가동하고 싶은 유혹을 느낄 수 있습니다. 하지만 각 에이전트가 진정으로 유용해지기 위해서는 자신만의 컨텍스트, 자신만의 기술, 그리고 자신만의 성공적인 실행 기록이 필요합니다. 더 생산적인 경로는 다음과 같습니다: 모든 것을 수행하는 하나의 에이전트로 시작하여, 반복되는 워크플로우(workflows)를 위한 기술을 개별적으로, 실제 실행과 함께 구축하세요. 워크플로우가 충분히 안정화되고 격리되면, 그것을 전담 서브 에이전트에게 넘겨주세요. 그 서브 에이전트는 실제 성공적인 실행 기록을 바탕으로 한 기술들을 상속받게 됩니다 [출처에 따름]. 아무도 에이전트에게 무언가를 가르치는 데 시간을 쓰지 않은 복잡한 멀티 에이전트 설정보다, 5개의 탄탄한 기술을 갖춘 잘 구성된 단일 에이전트가 더 뛰어난 성능을 발휘할 것입니다 [출처에 따름].

주시해야 할 점
Claude Code와 Cursor가 에이전트 아키텍처에서 점진적 공개(progressive disclosure)를 기본 패턴으로 채택하는지 지켜보세요. 지연 로딩(lazy loading) 기능이 포함된 '기술(skills)' 시스템을 탑재한 두 도구 중 어느 쪽이든 차기 주요 릴리스를 내놓는다면, 이 접근 방식이 대규모 환경에서 검증될 것입니다. 또한 SWE-bench와 같은 에이전트 평가 스위트(evaluation suites)의 토큰 사용량 벤치마크도 추적하세요.

[reddit_claude를 통해 5월 15일 업데이트됨] 별도로, Reddit의 한 장기 Claude 사용자(long-term Claude user)가 인용한 GitHub 이슈(#46917)에 따르면, 최근 업데이트(v2.1.100+)에서 동일한 작업 부하(workloads)에 대해 약 40%의 토큰 인플레이션(token inflation)이 발생했다고 보고되었습니다. 이는 세션이 컨텍스트 제한(context limits)에 더 빨리 도달함을 의미하며, CLAUDE.md로 인한 토큰 낭비 문제를 가중시킵니다. 또한 해당 사용자는 Claude Code가 2~3턴 후에 명시적인 세션 지침(session instructions)을 무시한다고 보고했는데, 이는 Anthropic의 4월 사후 분석(postmortem)에서 완전히 해결되지 않았을 수 있는 캐싱/컨텍스트 퇴보(caching/context regression) 현상과 일치합니다 [Reddit 사용자 Rough-Survey8375에 따르면]. gentic.news에서 최초 게시됨

AI 자동 생성 콘텐츠

원문 바로가기

CLAUDE.md는 턴당 7,000개 이상의 토큰을 낭비하며, 기술(Skills)은 50개로 줄어듭니다

요약

핵심 포인트

댓글