Context Engineering을 위한 Agent Skills

프로덕션급 (production-grade) AI 에이전트 시스템 구축을 위해 컨텍스트 엔지니어링 (context engineering) 및 하네스 엔지니어링 (harness engineering) 원칙에 초점을 맞춘 Agent Skills의 포괄적이고 공개된 컬렉션입니다. 이 기술들은 컨텍스트를 큐레이션하고, 에이전트 운영 루프 (agent operating loops)를 설계하며, 모든 에이전트 플랫폼에서 에이전트의 행동을 평가하는 기술과 과학을 가르칩니다.

컨텍스트 엔지니어링 (Context engineering)은 언어 모델 (language model)의 컨텍스트 윈도우 (context window)를 관리하는 학문입니다. 효과적인 지침을 만드는 데 집중하는 프롬프트 엔지니어링 (prompt engineering)과 달리, 컨텍스트 엔지니어링은 모델의 제한된 어텐션 예산 (attention budget)에 들어가는 모든 정보, 즉 시스템 프롬프트 (system prompts), 도구 정의 (tool definitions), 검색된 문서 (retrieved documents), 메시지 기록 (message history), 도구 출력 (tool outputs)의 총체적인 큐레이션을 다룹니다.

근본적인 과제는 컨텍스트 윈도우가 단순히 원시 토큰 용량 (raw token capacity)에 의해 제한되는 것이 아니라 어텐션 메커니즘 (attention mechanics)에 의해 제한된다는 점입니다. 컨텍스트 길이가 길어짐에 따라 모델은 예측 가능한 성능 저하 패턴을 보입니다: "중간에서 길을 잃는 (lost-in-the-middle)" 현상, U자형 어텐션 곡선 (U-shaped attention curves), 그리고 어텐션 희소성 (attention scarcity) 등이 그것입니다. 효과적인 컨텍스트 엔지니어링이란 원하는 결과의 가능성을 극대화하는, 신호가 높은 (high-signal) 최소한의 토큰 집합을 찾아내는 것을 의미합니다.

이 저장소는 학술 연구에서 정적 기술 아키텍처 (static skill architecture)에 관한 기초 연구로 인용되었습니다:

"정적 기술 (static skills)이 잘 알려져 있지만 [Anthropic, 2025b; Muratcan Koylan, 2025], MCE는 이를 동적으로 진화시켜 수동적 기술 엔지니어링과 자율적 자기 개선 (autonomous self-improvement) 사이의 가교 역할을 하는 최초의 연구 중 하나이다."

Meta Context Engineering via Agentic Skill Evolution, Peking University State Key Laboratory of General Artificial Intelligence (2025)
Agent Harness Engineering: A Survey, CMU, Yale, JHU, NEU, Tulane, UAB, OSU, Virginia Tech, and Amazon (2026)

이 기술들은 이후의 모든 컨텍스트 엔지니어링 작업을 위해 필요한 기초적인 이해를 확립합니다.

기술 (Skill)	설명 (Description)
context-fundamentals	컨텍스트가 무엇인지, 왜 중요한지, 그리고 에이전트 시스템 내 컨텍스트의 구조 (Anatomy)를 이해함
...
이 기술들은 효과적인 에이전트 시스템을 구축하기 위한 패턴과 구조를 다룹니다.

기술 (Skill)	설명 (Description)
multi-agent-patterns	오케스트레이터 (Orchestrator), 피어 투 피어 (Peer-to-peer), 계층적 멀티 에이전트 (Hierarchical multi-agent) 아키텍처를 숙달함
...
이 기술들은 에이전트 시스템의 지속적인 운영 및 최적화를 다룹니다.

기술 (Skill)	설명 (Description)
context-optimization	압축 (Compaction), 마스킹 (Masking), 캐싱 (Caching) 전략을 적용함
...
이 기술들은 LLM 기반 프로젝트를 구축하기 위한 메타 레벨 (Meta-level) 관행을 다룹니다.

기술 (Skill)	설명 (Description)
project-development	아이디어 구상부터 배포까지 LLM 프로젝트를 설계하고 구축함. 여기에는 작업-모델 적합성 분석 (Task-model fit analysis), 파이프라인 아키텍처 (Pipeline architecture), 구조화된 출력 설계 (Structured output design)가 포함됨

이 기술들은 합리적인 에이전트 시스템을 위한 공식적인 인지 모델링 (Cognitive modeling)을 다룹니다.

기술 (Skill)	설명 (Description)
bdi-mental-states	[신규] 숙의적 추론 (Deliberative reasoning) 및 설명 가능성 (Explainability)을 위해 공식적인 BDI 온톨로지 (Ontology) 패턴을 사용하여 외부 RDF 컨텍스트를 에이전트의 정신 상태 (신념, 욕구, 의도)로 변환함

각 기술은 효율적인 컨텍스트 사용을 위해 구조화되어 있습니다. 시작 시 에이전트는 기술 이름과 설명만 로드합니다. 전체 내용은 관련 작업에 대해 기술이 활성화될 때만 로드됩니다.

이 기술들은 특정 벤더 종속적인 구현보다는 전이 가능한 원칙에 집중합니다. 이 패턴들은 Claude Code, Cursor, 그리고 기술을 지원하거나 사용자 정의 지침 (Custom instructions)을 허용하는 모든 에이전트 플랫폼에서 작동합니다.

스크립트와 예제는 특정 종속성 설치를 요구하지 않고 다양한 환경에서 작동하는 Python 의사코드 (Pseudocode)를 사용하여 개념을 입증합니다.

이 리포지토리는 **Claude Code 플러그인 마켓플레이스 (Claude Code Plugin Marketplace)**로, Claude가 작업 컨텍스트에 따라 자동으로 발견하고 활성화하는 컨텍스트 엔지니어링 기술들을 포함하고 있습니다.

1단계: 마켓플레이스 추가

Claude Code에서 다음 명령어를 실행하여 이 리포지토리를 플러그인 소스로 등록하세요:

/plugin marketplace add muratcankoylan/Agent-Skills-for-Context-Engineering

2단계: 플러그인 설치

옵션 A - 찾아보고 설치하기:

Browse and install plugins 선택
context-engineering-marketplace 선택
context-engineering 선택
Install now 선택

옵션 B - 명령어를 통한 직접 설치:

/plugin install context-engineering@context-engineering-marketplace

이 명령은 15개의 모든 기술 (Skills)을 단일 플러그인으로 설치합니다. 기술들은 작업 컨텍스트 (Task context)에 따라 자동으로 활성화됩니다.

기술 (Skill)	활성화 조건
`context-fundamentals`	컨텍스트 창 (Context-window) 멘탈 모델 구축, 에이전트 아키텍처 (Agent architecture) 계획, 또는 컨텍스트 구성 요소가 모델 동작에 미치는 영향 설명 시
`context-degradation`	어텐션 실패 (Attention failures), 컨텍스트 오염 (Context poisoning), Lost-in-the-middle 현상, 또는 긴 세션 동안의 에이전트 성능 저하 진단 시
`context-compression`	컨텍스트 압박 상황에서 대화, 도구 출력 (Tool-output), 또는 궤적 (Trajectory) 크기를 줄이면서 유용한 상태를 보존할 때
`context-optimization`	에이전트 시스템을 위한 토큰 효율성 (Token efficiency), 검색 정밀도 (Retrieval precision), 접두사 재사용 (Prefix reuse), 마스킹 (Masking), 파티셔닝 (Partitioning), 또는 예산 할당 (Budget allocation) 개선 시
`latent-briefing`	워커 (Worker)의 런타임 (Runtime) 제어가 가능하고 모델들이 호환되는 경우, 작업 유도형 KV 캐시 압축 (Task-guided KV cache compaction)을 통해 오케스트레이터 궤적 (Orchestrator trajectory)을 워커와 공유할 때
`multi-agent-patterns`	조정 패턴 (Coordination patterns) 선택, 에이전트 간 컨텍스트 격리, 핸드오프 (Handoffs) 설계, 또는 병렬 에이전트 (Parallel agents) 사용의 타당성 평가 시
`memory-systems`	세션 간 지식 유지 (Persisting cross-session knowledge), 시간에 따른 엔티티 (Entities) 추적, 메모리 프레임워크 선택, 또는 검색 및 업데이트 의미론 (Retrieval and update semantics) 설계 시
`tool-design`	에이전트-도구 계약 (Agent-tool contracts) 정의, 도구 인터페이스 (Tool surfaces) 통합, 설명 개선, 또는 도구 오류를 실행 가능한 형태 (Actionable)로 만들기
`filesystem-context`

대규모 또는 지속적인 컨텍스트를 파일로 이동, 스크래치패드 (scratchpads) 생성, 적시 발견 (just-in-time discovery) 지원, 또는 공유된 아티팩트 (artifacts)를 통한 에이전트 조정 |
hosted-agents |
원격 샌드박스 (sandboxes), 백그라운드 환경, 웜 풀 (warm pools), 또는 멀티플레이어 에이전트 인프라에서 코딩 에이전트 실행 |
evaluation |
에이전트 행동을 위한 결정론적 체크 (deterministic checks), 루브릭 (rubrics), 회귀 테스트 스위트 (regression suites), 프로덕션 모니터링, 또는 품질 게이트 (quality gates) 생성 |
advanced-evaluation |
LLM 판사 (LLM judges), 쌍체 비교 (pairwise comparison), 캘리브레이션 (calibration), 편향 완화 (bias mitigation), 또는 인간 정렬 품질 평가 (human-aligned quality assessment) 사용 |
harness-engineering |
잠금된 평가자 (locked evaluators), 편집 가능한 인터페이스 (editable surfaces), 지속적인 로그 (durable logs), 참신성 게이트 (novelty gates), 롤백 (rollback), 및 승인 경계 (approval boundaries)를 갖춘 자율 루프 설계 |
project-development |
LLM의 적합성 결정, 배치 파이프라인 (batch pipelines) 형성, 단계별 아티팩트 (staged artifacts) 생성, 또는 운영 비용 추정 |
bdi-mental-states |
에이전트를 위한 신념 (beliefs), 욕구 (desires), 의도 (intentions), 합리적 행동 추적 (rational action traces), 또는 뉴로-심볼릭 상태 변환 (neuro-symbolic state transformations) 모델링 |

Screenshot 2025-12-26 at 12 34 47 PM

이 리포지토리는 Cursor Plugin Directory에 등록되어 있습니다.

.plugin/plugin.json 매니페스트 (manifest)는 Open Plugins 표준을 따르므로, 이 리포지토리는 표준을 준수하는 모든 에이전트 도구 (Codex, GitHub Copilot 등)와 함께 작동합니다.

전체 플러그인을 설치하지 않고 단일 스킬만 사용하려면, 해당 SKILL.md를 프로젝트의 .claude/skills/ 디렉토리로 직접 복사하세요:

# 예시: context-fundamentals 스킬만 추가
mkdir -p .claude/skills
curl -o .claude/skills/context-fundamentals.md \
...

사용 가능한 스킬: context-fundamentals, context-degradation, context-compression, context-optimization, latent-briefing, multi-agent-patterns, memory-systems, tool-design, filesystem-context, hosted-agents, evaluation, advanced-evaluation, harness-engineering, project-development, bdi-mental-states

모든 스킬(skill)로부터 원칙과 패턴을 추출하여 귀하의 에이전트 프레임워크(agent framework)에 구현하십시오. 이 스킬들은 의도적으로 플랫폼에 구애받지 않도록(platform-agnostic) 설계되었습니다.

examples 폴더에는 여러 스킬이 실제 환경에서 어떻게 함께 작동하는지 보여주는 완전한 시스템 설계가 포함되어 있습니다.

예시	설명	적용된 스킬
digital-brain-skill	창업자와 크리에이터를 위한 새로운 개인용 운영체제(Personal operating system). 6개의 모듈과 4개의 자동화 스크립트를 포함한 완전한 Claude Code 스킬	context-fundamentals, context-optimization, memory-systems, tool-design, multi-agent-patterns, evaluation, project-development
x-to-book-system	X(구 트위터) 계정을 모니터링하고 매일 합성된 도서를 생성하는 멀티 에이전트 시스템(Multi-agent system)	multi-agent-patterns, memory-systems, context-optimization, tool-design, evaluation
llm-as-judge-skills	TypeScript 구현 및 19개의 통과 테스트를 포함한 프로덕션 준비 완료(Production-ready) LLM 평가 도구	advanced-evaluation, tool-design, context-fundamentals, evaluation
book-sft-pipeline	어떤 작가의 스타일로도 글을 쓸 수 있도록 모델을 학습시킴. Pangram에서 70%의 인간 점수를 기록한 Gertrude Stein 사례 연구 포함, 총 비용 $2	project-development, context-compression, multi-agent-patterns, evaluation
interleaved-thinking	에이전트 실패 패턴을 포착, 분석하여 생성된 스킬로 변환하는 추론 트레이스(Reasoning trace) 최적화 도구	evaluation, advanced-evaluation, context-degradation, harness-engineering

각 예시에는 다음 내용이 포함됩니다:

아키텍처 결정 사항이 포함된 완전한 제품 요구 사양서(PRD)
어떤 개념이 각 결정에 영향을 주었는지 보여주는 스킬 매핑(Skills mapping)
구현 가이드(Implementation guidance)

digital-brain-skill 예시는 포괄적인 스킬 적용을 보여주는 완전한 개인용 운영체제입니다:

점진적 공개 (Progressive Disclosure): 3단계 로딩 (SKILL.md → MODULE.md → 데이터 파일)
모듈 격리 (Module Isolation): 6개의 독립적인 모듈 (identity, content, knowledge, network, operations, agents)
추가 전용 메모리 (Append-Only Memory): 에이전트 친화적 파싱을 위해 스키마 우선(schema-first) 라인을 포함한 JSONL 파일
자동화 스크립트 (Automation Scripts): 4개의 통합 도구 (weekly_review, content_ideas, stale_contacts, idea_to_draft)

모든 아키텍처 결정 사항을 특정 스킬 원칙에 매핑하는 HOW-SKILLS-BUILT-THIS.md를 통해 상세한 추적 가능성(traceability)을 포함합니다.

llm-as-judge-skills 예시는 다음을 입증하는 완전한 TypeScript 구현체입니다:

직접 점수 산정 (Direct Scoring): 루브릭(rubric) 지원을 통해 가중치가 부여된 기준에 따라 응답을 평가
쌍체 비교 (Pairwise Comparison): 위치 편향(position bias) 완화 기법을 적용하여 응답을 비교
루브릭 생성 (Rubric Generation): 도메인 특화 평가 표준 생성
평가 에이전트 (EvaluatorAgent): 모든 평가 기능을 결합한 상위 수준의 에이전트

book-sft-pipeline 예시는 어떤 저자의 스타일로도 글을 쓸 수 있도록 소형 모델(8B)을 학습시키는 과정을 보여줍니다:

지능적 세분화 (Intelligent Segmentation): 최대 학습 예시 확보를 위해 오버랩(overlap)을 포함한 2단계 청킹(chunking)
프롬프트 다양성 (Prompt Diversity): 암기를 방지하고 스타일 학습을 강제하기 위한 15개 이상의 템플릿
Tinker 통합: 총 비용 2달러 미만의 완전한 LoRA 학습 워크플로우
검증 방법론 (Validation Methodology): 스타일 전이(style transfer)와 내용 암기(content memorization)를 구분하는 현대적인 시나리오 테스트

context engineering 스킬인 project-development, context-compression, multi-agent-patterns, evaluation과 통합됩니다.

researcher 디렉토리는 외부 연구를 스킬 변화로 전환하기 위한 파일 기반 운영체제입니다. 이는 이 리포지토리가 단순한 선집(anthology)이 아닌, 복리로 쌓이는 단일 진실 공급원(compounding source of truth) 역할을 할 수 있도록 존재합니다.

스킬 라우터(skill router, 주어진 작업에 적절한 스킬이 로드될지 결정하는 역할)는 Cursor SDK를 통해 4개의 프런티어 모델(frontier models)을 대상으로 엔드 투 엔드(end-to-end) 벤치마크를 수행했습니다. 총 3회의 전체 스윕(50개 프롬프트 x 4개 모델 x 3회 반복 = 각 600회 호출) 결과는 다음과 같습니다:

베이스라인:
researcher/benchmarks/router/results-published/2026-05-15.md
타겟팅된 설명 재작성 (targeted description rewrites) 후:
researcher/benchmarks/router/results-published/2026-05-15-v2.md

(베이스라인 대비 차이(delta-vs-baseline) 포함) - 코퍼스 전반의 강화 (corpus-wide hardening) 후:
researcher/benchmarks/router/results-published/2026-05-19.md

(사용 가능한 레코드 600/600개, 형식 오류 0건)

데이터가 지목한 세 가지 기술(skills)에 대한 기술별 효과 크기 (Per-skill effect size):

Insights

Context Engineering을 위한 Agent Skills

요약

핵심 포인트

댓글

André Dias Moreira Prol 설명: Fine-tuning vs RAG, 무엇을 선택해야 하는가

사서들이 이제 사람들에게 AI를 피하는 방법을 가르치고 있습니다

Google이 AI 지출 전망을 다시 상향함에 따라 지금 매수해야 할 주식 2가지

RecGPT-V3 기술 보고서 (Technical Report)

André Dias Moreira Prol 설명: Fine-tuning vs RAG, 무엇을 선택해야 하는가

사서들이 이제 사람들에게 AI를 피하는 방법을 가르치고 있습니다

Google이 AI 지출 전망을 다시 상향함에 따라 지금 매수해야 할 주식 2가지

RecGPT-V3 기술 보고서 (Technical Report)