GitHub Copilot의 토큰 소비를 줄이는 팁

안녕하세요, 닥스훈트입니다.

GitHub Copilot의 요금 체계가 2026년 6월 1일부터 「AI Credits (토큰 소비량에 따른 종량제 형식)」로 변경됨에 따라, 주변의 GitHub Copilot 이용자들로부터 "토큰 상한에 걸려버린다"라는 목소리가 늘어나고 있습니다. 상한에 도달하면 작업 도중에 대기가 필요하거나 사용할 수 있는 모델이 제한되는 등 불편함을 느낄 수 있습니다. 그래서 이번에는 일상적인 개발에서 실천하기 쉬운 「토큰 소비를 줄이는 팁」을 소개합니다.

1. 서론

6월부터 GitHub Copilot의 과금 단위가 변경되었다

2026년 6월 1일부터, GitHub Copilot의 과금 단위가 「PRU (Premium Request Unit)」에서 「GitHub AI 크레딧」으로 이행되었습니다. 새로운 체계에서는 입력·출력·캐시된 토큰의 합계량을 바탕으로 크레딧이 소비되는 구조입니다 (GitHub Blog).

이 변경으로 인해, 6월 이후에는 「어떤 기능을, 어떤 모델로, 어느 정도 사용할지」를 이전보다 더 의식할 필요가 있습니다. 또한, 플랜에 따라 이용 상한으로서 「세션 상한」과 「주간(7일간) 상한」이 마련되어 있으며, 세션 상한에 도달한 경우에는 리셋될 때까지 대기가 필요합니다. 주간 상한에 도달한 경우에도 기간이 리셋될 때까지 모델 선택에 제한이 걸리는 경우가 있습니다 (GitHub Docs).

단, 일부 기능(코드 보완 (인라인 보완)과 Next Edit Suggestions)은 계속해서 크레딧 소비 없이 사용할 수 있으므로 안심하고 계속 사용할 수 있습니다.

2. 토큰 소비와 관련된 기능

절약 팁에 들어가기에 앞서, 기능별 소비 여부를 정리해 두겠습니다.

기능	토큰 소비	비고
인라인 보완 (코드 보완)	없음	계속해서 자유롭게 사용 가능
Next Edit Suggestions	없음	계속해서 자유롭게 사용 가능
Copilot Chat	있음	대화가 길어질수록 증가
Copilot 에이전트 (Agent mode)	있음 (큼)	파일 읽기·도구 호출도 가산
Copilot Code Review	있음	GitHub Actions 실행분도 소비

코드 보완은 토큰을 소비하지 않기 때문에 이전처럼 적극적으로 사용할 수 있습니다. 소비가 큰 것은 채팅이나 에이전트 기능입니다. 여기서부터는 그 소비를 줄이기 위한 방안을 소개합니다. 이러한 방안은 Cursor·Claude Code를 비롯한 다른 AI 코딩 도구에서도 공통적으로 유용합니다.

3. 토큰 절약 팁

소개할 팁 목록

이 사이트에서는 다음과 같은 팁을 소개합니다. 특히 「추천」을 붙인 항목은 간편하게 도입할 수 있고 절감 효과가 높기 때문에, 우선 이것부터 시도해 보는 것이 좋다고 생각합니다.

상세한 내용은 사이트 하단의 해당 섹션을 참조해 주세요.

3-1. 사용하는 모델을 구분해서 사용하기 (추천)

계획·설계 페이즈는 고성능 모델, 구현·정형 작업 페이즈는 경량 모델. 망설여진다면 Auto 모드

3-2. 채팅 세션 사용법을 고안하기

3-2-1. 세션을 자주 리셋하기 (추천)
대화 이력은 다음 요청에 모두 포함되므로, 한 단락이 끝나면 새로운 채팅으로.

채팅 화면의 「＋」 버튼 또는 「/clear」 명령어로 새로운 채팅으로 전환 가능.

대화 이력은 다음 요청에 모두 포함되므로, 한 단락이 끝나면 새로운 채팅으로.
3-2-2. Plan 모드와 Agent 모드로 세션을 나누기 (추천)
Plan 모드에서 작성한 구현 계획만을 새로운 세션의 Agent 모드에 전달함으로써, 시행착오 로그를 구현 세션으로 가져오지 않음.
3-2-3. 「/compact」 명령어로 이력을 요약하기 (추천)
문맥을 이어가고 싶은 경우에는 빠르게 실행한다.
3-2-1. 세션을 자주 리셋하기 (추천)

3-3. 참조 파일·컨텍스트를 좁히기

3-3-1. 참조해주길 바라는 파일을 명시적으로 지정하기 (추천)
「#파일명」으로 필요한 파일만 전달하기
3-3-2. 에디터에서 서브 폴더(Subfolder)만 열기
3-3-3. 파일 목록·요약표를 준비하기 (추천)
- 파일 목록표를 미리 작성해 두어, 에이전트(Agent)가 모든 파일을 직접 읽지 않고도 목적 파일을 특정할 수 있도록 합니다.
3-3-4. 파일 1개당 크기를 작게 만들기
3-3-5. 파일 형식에도 주의하기
- 메타데이터 등이 포함된 파일(Jupyter Notebook 등)은 제거하거나, 필요한 부분만 추출해서 전달합니다.
3-3-6. 참조하고 싶지 않은 파일은 제외하기
3-3-1. 참조해주길 바라는 파일을 명시적으로 지정하기 (추천)

3-4. 에이전트·도구를 효율적으로 사용하기

3-4-1. MCP보다 스킬(Skill)을 우선하기
- 사용하지 않는 도구 정보의 전송을 피하고, 필요한 것만 로드합니다.
3-4-2. 서브 에이전트(Sub-agent)를 활용하기
- 조사·해석 등을 서브 에이전트에게 맡기고, 요약본만 메인 에이전트에게 전달하여 컨텍스트(Context)를 슬림하게 유지합니다 (정확도와의 트레이드오프(Trade-off)에 주의).
3-4-1. MCP보다 스킬(Skill)을 우선하기

3-5. 다른 AI 도구도 활용하기 (추천)

일반적인 조사는 Gemini, 자료(Excel, PowerPoint, PDF 등)의 해석은 NotebookLM, OSS의 코드 해석은 DeepWiki 등을 활용합니다.

3-1. 사용하는 모델을 구분해서 사용하기

고성능 모델(Claude Opus 등)은 토큰 단가가 높은 경향이 있습니다. "모든 태스크에 최고 성능의 모델을 사용"하는 것이 아니라, 단계나 용도에 맞춰 전환함으로써 비용을 억제할 수 있습니다.

예를 들어, 다음과 같은 구분 사용이 가능합니다.

계획·설계 단계: 복잡한 요구사항 정리나 전체 설계, 후속 구현을 위한 구현 계획 작성 시에는 고성능 모델을 사용합니다.
구현·정형 작업 단계: 구현 계획을 바탕으로 한 코드 구현이나, 어느 정도 소규모인 코드 구현, 테스트 코드 구현, 리팩터링(Refactoring) 등에서는 경량 모델로도 충분한 경우가 많습니다.

어떤 모델을 선택해야 할지 고민된다면, Auto 모드(Copilot이 태스크에 따라 자동으로 선택하는 설정)를 사용하는 것이 무난합니다. 단, Auto 모드가 구체적으로 어떤 모델을 선택할지는 수시로 변할 가능성이 있으므로, 최신 정보는 공식 문서에서 확인하시기 바랍니다.

또한, Auto 모드에서 실제로 어떤 모델이 선택되었는지는 나중에 확인할 수 있습니다. 채팅 답변 부분에 마우스 커서를 올리면, 오른쪽 하단에 자동 선택된 모델명이 표시됩니다.

3-2. 채팅 세션 사용법을 고안하기

Copilot Chat은 대화의 전체 이력을 다음 요청에 포함하여 전송하는 구조입니다. 따라서 채팅을 계속할수록 토큰 소비량이 지수적으로 증가합니다. 다음과 같은 방법을 통해 불필요한 이력의 축적을 방지할 수 있습니다.

3-2-1. 세션을 자주 리셋하기

태스크가 일단락되면 채팅을 새로 시작하세요. 이전 작업의 시행착오를 끌어오지 않아도 되므로, 다음 요청의 컨텍스트를 필요 최소한으로 유지할 수 있습니다.

또한 /clear 명령어로도 새로운 세션으로 전환이 가능합니다.

3-2-2. Plan 모드와 Agent 모드를 구분해서 사용하기

먼저 Plan 모드(또는 계획만 출력하도록 지시)로 구현 계획 텍스트를 생성하게 합니다.
(추천) 채팅창에서 「/plan」 명령어를 실행하면 Plan 모드로 전환됩니다.
또는, 채팅창 왼쪽 하단의 「Agent」 버튼에서 「Plan」을 선택하면 Plan 모드로 전환됩니다.
새로운 채팅 세션을 열고, Agent 모드에서 해당 계획 텍스트를 참조시켜 구현을 요청합니다.
채팅을 입력하면 기본적으로 Agent 모드로 실행됩니다.

이 절차를 밟으면 계획 단계의 시행착오 로그를 구현 세션으로 가져오지 않아도 됩니다.

또한, Plan 모드에서 미리 구현 내용을 조율해 둠으로써, 구현 도중 방향 전환이나 재작업(Rework)을 줄일 수 있다는 장점도 있습니다. Agent 모드에 바로 구현을 시키면 "역시 다른 접근 방식으로"라고 되었을 때 다시 작업해야 하며, 그만큼의 토큰도 낭비됩니다. Plan 모드에서 합의한 후 구현에 들어가면 한 번에 목적하는 결과에 가까워질 수 있습니다.

3-2-3. 「/compact」 명령어로 이력을 요약하기

"문맥을 이어가고 싶지만 이력이 너무 길어졌다"라고 판단되는 경우에는 /compact

명령어를 실행하세요. 과거의 대화 내용을 요약하여 컨텍스트 (Context)가 비대해지는 것을 방지해 줍니다. Copilot에는 자동 압축 기능도 있지만, 컨텍스트 윈도우 (Context Window)의 상한선에 도달할 때까지 실행되지 않으므로 의식적으로 사용하는 것이 더 효과적입니다.

3-3. 참조 파일 및 컨텍스트 좁히기

에이전트(Agent)나 채팅이 읽어들이는 파일의 범위를 좁히는 것도 소비를 억제하는 유효한 수단입니다.

3-3-1. 참조를 원하는 파일을 명시적으로 지정하기

채팅을 보낼 때는 #파일명을 사용하여 참조 대상을 명시하세요. 필요한 파일만 명시적으로 전달하는 습관을 갖는 것만으로도 소비를 줄일 수 있습니다. 반면, 지정한 파일 이외의 관련 파일을 찾아내지 못해 참조하지 않는 경우도 있으므로 주의가 필요합니다.

3-3-2. 서브 폴더만 에디터로 열기

프로젝트의 루트 폴더 전체를 VS Code의 워크스페이스 (Workspace)로 여는 대신, 현재 작업 중인 서브 폴더만 여는 방법도 유효합니다. 예를 들어 프론트엔드와 백엔드가 폴더로 나뉘어 있다면, 프론트엔드 폴더만 열어 Copilot이 인덱싱 (Indexing)하는 파일 대상을 좁힐 수 있습니다.

3-3-3. 파일 목록 및 요약표 준비하기

프로젝트의 주요 파일을 정리한 '색인 문서'를 작성하는 것은 토큰 (Token) 절약에 매우 효과적입니다.

구체적으로는 AI를 위한 지시 파일인 copilot-instructions.md에 파일 목록과 요약표를 기재합니다. 각 파일의 역할이나 '어떤 작업에서는 어떤 파일을 보아야 하는지'와 같은 참조처를 명확하게 기술해 두세요.

이를 통해 Copilot이 질문할 때마다 모든 파일을 넓게 탐색하고 내용을 직접 읽어 들일 필요가 없어집니다. 또한, 사람 측에서도 질문 시 전제 조건을 매번 길게 설명해야 하는 번거로움을 덜 수 있으며, 적절한 파일로 매끄럽게 유도할 수 있습니다.

결과적으로 Copilot이 목적 파일을 빠르고 정확하게 특정할 수 있게 되어, 불필요한 읽기 작업을 줄일 수 있습니다.

3-3-4. 파일 1개당 크기 줄이기

참조되는 파일 자체의 크기(코드 줄 수나 문장량)가 클수록, 1회 읽기 시 소비되는 토큰도 늘어납니다. 파일을 적절한 단위로 분할해 두면 에이전트가 필요한 부분만 읽을 확률이 높아져 소비를 억제할 수 있습니다.

소스 코드: 클래스나 기능별로 파일을 분할한다. 파일 1개가 수백~1,000행을 넘어가기 시작하면 분할을 검토해야 하는 신호다. -
문서 및 설정 파일: 거대한 설정 파일이나 방대한 사양서는 기능·섹션별로 파일을 나누어 관리한다. -
AI 지시 파일: copilot-instructions.md나 Claude Code의 CLAUDE.md 등에 모든 지시를 몰아넣지 말고, 테마별로 분할할 수 있는 스킬의 메커니즘 등을 활용한다 (Claude Code에서는 각 서브 폴더에 CLAUDE.md를 두어 스코프 (Scope)를 좁히는 것도 가능하다).

단, 과도하게 세분화하면 에이전트가 오히려 더 많은 파일을 읽어야 하는 상황이 발생할 수도 있습니다. '1 파일 1 책임'을 의식한 적절한 입도 (Granularity)가 중요합니다.

3-3-5. 파일 형식에도 주의하기

파일 형식에 따라 코드나 문서 본체 외에 메타데이터나 바이너리 데이터가 많이 포함되어 있어, 읽어 들일 때 토큰 소비가 커지기 쉽습니다.

예를 들어, Jupyter Notebook (.ipynb)은 코드 셀, 실행 결과, 메타데이터가 1개 파일에 통합된 JSON 형식입니다. 출력 셀에 이미지나 대량의 로그가 포함되어 있으면, 코드 본체는 적더라도 토큰 소비가 급증할 수 있습니다. 필요한 부분만 .py 파일로 추출하여 전달하거나, 출력 셀을 미리 비운 뒤 전달하는 등의 궁리가 유효합니다.

3-3-6. 참조하고 싶지 않은 파일 제외하기

Cursor에서는 .cursorignore에 제외하고 싶은 파일을 나열함으로써 에이전트가 해당 파일을 참조하지 않도록 설정할 수 있습니다. 거대한 파일, 메타데이터가 많은 파일, 태스크와 직접 관계없는 파일은 미리 제외해 두는 것이 효과적입니다.

GitHub Copilot에는 .copilotignore와 같은 전용 제외 설정은 존재하지 않는 것 같습니다. 아이디어 차원이지만 copilot-instructions.md

(copilot-instructions.md (Copilot을 위한 공통 지시 파일))에 "〇〇 파일은 참조하지 말 것"이라고 기재함으로써 유사한 효과를 얻을 수 있을 가능성이 있습니다.

3-4. 에이전트·도구(Tool)를 효율적으로 사용하기

3-4-1. MCP보다 스킬(Skill)을 우선하기

MCP (Model Context Protocol)는 설정된 모든 도구의 정보를 요청마다 전송합니다. 사용하지 않는 도구의 정보도 매번 포함되기 때문에, 도구를 많이 설정할수록 소비량이 늘어납니다. 반면, **스킬 (Skill)**은 사용될 때 필요한 파일류만 읽어오도록 설계되어 있습니다. 또한, 스킬과 함께 배치한 보충 파일도 실제로 필요할 때만 참조되므로, 불필요한 컨텍스트 (Context) 증가를 억제할 수 있습니다.

3-4-2. 서브 에이전트를 두어 메인 컨텍스트를 슬림하게 유지하기

대량의 파일이나 정보를 메인 에이전트에게 직접 읽히는 대신, 서브 에이전트 (Sub-agent)에게 처리하게 한 뒤 "요약·결과 텍스트"만 메인 에이전트에게 전달하는 수법이 유효합니다. 이를 통해 메인 에이전트의 컨텍스트 윈도우 (Context Window)를 슬림하게 유지할 수 있습니다.

서브 에이전트가 유용한 상황의 예:

조사: 문서·Web·파일군 검색에 서브 에이전트를 활용하고, 조사 결과 요약을 메인 에이전트에게 전달
대규모 코드베이스: 담당 모듈 해석에 서브 에이전트를 활용하고, 사양·인터페이스 요약을 메인 에이전트에게 전달
테스트 결과 확인: 테스트 실행·로그 확인에 서브 에이전트를 활용하고, 실패 지점 목록을 메인 에이전트에게 전달
코드 리뷰: 변경 차이(Diff) 리뷰에 서브 에이전트를 활용하고, 지적 사항 목록을 메인 에이전트에게 전달

단, 서브 에이전트 자체도 토큰을 소비합니다. 주요 절약 효과는 메인 에이전트의 컨텍스트 축적을 방지하는 데 있으며, 시스템 전체의 총 소비량이 반드시 줄어드는 것은 아니라는 점에 주의가 필요합니다. 또한, 메인 에이전트가 로우 데이터 (Raw Data)를 직접 보지 않는 만큼, 답변 정확도와의 트레이드오프 (Trade-off)도 주의해야 합니다. 케이스에 따라 서브 에이전트 활용 여부를 검토하시기 바랍니다.

3-5. 타 도구로의 적절한 분배

Copilot에게 모든 것을 시키는 것이 아니라, 태스크 (Task)의 성격에 맞는 도구로 분배함으로써 소비량을 억제할 수 있습니다.

태스크	권장 도구	특징
일반적인 인터넷 검색·조사	Gemini 등	Web 검색·조사를 채팅 형식으로 수행 가능
GitHub에 공개된 OSS 소스 코드 해석	DeepWiki (무료/로그인 불필요)	공개 리포지토리의 Wiki 열람 및 채팅 질문 가능 (기밀 정보 입력은 피하는 것이 좋음)
프라이빗 프로젝트의 코드 해석	Devin	프라이빗 리포지토리의 Wiki 생성·채팅 질문 가능. 또한, 코딩부터 PR 생성까지 자율적으로 수행

DeepWiki란

DeepWiki는 Devin을 개발한 Cognition AI가 제공하는 무료 서비스입니다. GitHub의 공개 리포지토리를 AI가 해석하여 아키텍처 도표·모듈 설명·의존 관계 맵이 포함된 문서 (Wiki)를 자동으로 생성해 줍니다. 자연어로 "이 코드는 무엇을 하고 있는가"라고 질문할 수도 있습니다.

접속 방법: GitHub URL의 github.com을 deepwiki.com으로 바꾸기만 하면 됩니다.

github.com/microsoft/vscode → deepwiki.com/microsoft/vscode

로그인·등록 없이 이용 가능합니다. 또한, 2026년 4월 시점으로 5만 개 이상의 주요 OSS 리포지토리가 미리 인덱싱(Indexed)되어 있습니다.

주의: 채팅 입력 내용은 DeepWiki가 운용하는 서버로 전송됩니다. 기밀 정보·개인 정보 입력은 피하는 것이 좋습니다.

Devin란

Devin은 Cognition AI가 개발한 자율형 AI 소프트웨어 엔지니어입니다. Wiki 생성뿐만 아니라 코드를 작성할 뿐만 아니라, 테스트 실행·PR 생성·CI 결과를 바탕으로 한 수정까지 자율적으로 수행합니다. GitHub Copilot이 에디터 상에서의 보완·채팅 지원에 특화되어 있다면, Devin은 태스크 단위로 통째로 맡기는 이미지입니다. 대규모 레거시 코드의 마이그레이션이나 반복적인 구현 태스크에 능숙합니다.

요약

이번에 소개한 팁을 카테고리별로 정리합니다.

모델 선택

태스크에 따라 모델을 구분하여 사용하기: 계획·설계 단계는 고성능 모델, 구현·정형 작업 단계는 경량 모델. 고민된다면 Auto 모드.

채팅 세션 관리

세션을 자주 리셋하기: 대화 이력은 다음 요청에 모두 포함되므로, 한 단락이 끝나면 새로운 채팅으로 전환. 채팅 화면의 "+" 버튼 또는 "/clear" 명령어로 새로운 채팅으로 전환 가능. -
Plan 모드와 Agent 모드로 세션 분리하기: 계획 텍스트만 새로운 세션에 전달함으로써, 시행착오 로그가 구현 세션으로 유입되는 것을 방지. -
"/compact" 명령어로 이력 요약하기: 문맥을 유지하고 싶은 경우에는 조기에 실행.

컨텍스트(Context) 좁히기

참조 파일을 명시적으로 지정하기: #파일명으로 필요한 파일만 전달. -
작업할 서브 폴더만 에디터로 열기: 인덱싱 대상을 좁혀 불필요한 로딩을 방지. -
파일 목록·요약표 준비하기: 에이전트가 모든 파일을 직접 읽지 않고도 목적 파일을 특정할 수 있도록 함. -
파일 1개당 크기를 작게 유지하기: 코드나 문서를 기능·책임 단위로 분할하여, 1회 로딩 시 소비되는 토큰을 줄임. 과도한 세분화는 역효과를 낼 수 있으므로 적절한 입도(Granularity)를 의식할 것. -
토큰을 팽창시키는 파일 형식 주의하기: Jupyter Notebook 등 출력·메타데이터가 큰 파일은 필요한 부분만 추출하여 전달. -
제외 설정 활용하기: Cursor는 .cursorignore로 제외. GitHub Copilot은 copilot-instructions.md에 "참조하지 말 것"이라고 기재하는 방법으로 대체 가능할 수도 있음.

에이전트·도구 사용법

MCP보다 스킬(Skill)을 우선하기: 사용하지 않는 도구 정보의 전송을 피하고, 필요한 것만 로드. -
서브 에이전트(Sub-agent) 활용하기: 조사·분석 등을 서브 에이전트에게 맡기고, 요약본만 메인 에이전트에게 전달하여 컨텍스트를 슬림하게 유지 (정확도와의 트레이드오프에 주의). -
태스크에 맞는 도구로 배분하기: 일반적인 조사는 Gemini, OSS 코드 분석은 DeepWiki 등, Copilot에게 모든 것을 맡기지 말 것.

이번에 소개한 요령은 Cursor, Claude Code를 비롯한 다른 AI 코딩 도구에서도 공통적으로 유용한 사고방식입니다. Copilot 고유의 설정(copilot-instructions.md 등)에 대해서는 각 도구의 대응 기능으로 대체하여 활용해 보세요.

Insights

GitHub Copilot의 토큰 소비를 줄이는 팁

요약

핵심 포인트

목차

1. 서론

6월부터 GitHub Copilot의 과금 단위가 변경되었다

2. 토큰 소비와 관련된 기능

3. 토큰 절약 팁

소개할 팁 목록

3-1. 사용하는 모델을 구분해서 사용하기

3-2. 채팅 세션 사용법을 고안하기

3-2-1. 세션을 자주 리셋하기

3-2-2. Plan 모드와 Agent 모드를 구분해서 사용하기

3-2-3. 「/compact」 명령어로 이력을 요약하기

3-3. 참조 파일 및 컨텍스트 좁히기

3-3-1. 참조를 원하는 파일을 명시적으로 지정하기

3-3-2. 서브 폴더만 에디터로 열기

3-3-3. 파일 목록 및 요약표 준비하기

3-3-4. 파일 1개당 크기 줄이기

3-3-5. 파일 형식에도 주의하기

3-3-6. 참조하고 싶지 않은 파일 제외하기

3-4. 에이전트·도구(Tool)를 효율적으로 사용하기

3-4-1. MCP보다 스킬(Skill)을 우선하기

3-4-2. 서브 에이전트를 두어 메인 컨텍스트를 슬림하게 유지하기

3-5. 타 도구로의 적절한 분배

DeepWiki란

Devin란

요약

참고

Discussion

댓글

Qwen3.8-Max Flutter 성능 디버깅 수정: 25% FPS 저하 해결

에이전트에게 '부탁'이 아닌 '강제'를 수행하기 — Omnigent 가드레일 입문

Show GN: 맥 파일명 자소분리를 자동으로 막아주는 메뉴바 앱을 만들었습니다 (Python · rumps · watchdog ·

에이전트는 타인의 서버에서 실행되어서는 안 됩니다: AI를 당신의 기기로 되돌리는 3가지 프로젝트

Qwen3.8-Max Flutter 성능 디버깅 수정: 25% FPS 저하 해결

에이전트에게 '부탁'이 아닌 '강제'를 수행하기 — Omnigent 가드레일 입문

Show GN: 맥 파일명 자소분리를 자동으로 막아주는 메뉴바 앱을 만들었습니다 (Python · rumps · watchdog ·

에이전트는 타인의 서버에서 실행되어서는 안 됩니다: AI를 당신의 기기로 되돌리는 3가지 프로젝트