플러그인 전쟁의 시작 — The Agentic Engineer #15 - Insights | Molayo

여러분이 직접 읽지 않아도 되도록 제가 저장소(repos)를 읽어드립니다. 빌더들을 위한 주간 에이전틱 AI(agentic AI) 인텔리전스.

요약 (TL;DR)

🔌 Anthropic이 Claude Cowork를 위한 11개의 지식 작업(knowledge-work) 플러그인을 오픈 소스로 공개했습니다. 파일 기반이며, 코드나 빌드 단계가 필요 없습니다. 플러그인이 새로운 해자(moat)가 되었습니다.
🛠️ OpenSearch Serverless 차세대 버전이 월 300달러의 최소 비용을 없앴습니다. 에이전트 메모리 워크로드(workloads)를 위한 스케일 투 제로(Scale-to-zero) 벡터 검색 기능이 포함되었습니다. 이번 주의 도구(Tool of the Week)입니다.
📄 새로운 논문에 따르면 자가 개선(self-improving) 에이전트의 정확도가 프로덕션 환경에서 25%에서 86%로 향상되었습니다. 대규모 환경에서 자율 에이전트 개선을 다룬 첫 번째 실제 사례 연구입니다.

주요 뉴스: Anthropic, 11개의 지식 작업 플러그인 오픈 소스 공개

Anthropic이 플러그인 전쟁에서 가장 명확한 행보를 보였습니다. Claude를 영업, 법률, 금융, 데이터 분석, 마케팅, 고객 지원 및 기타 5개 분야의 도메인 전문가로 변모시키는 11개의 오픈 소스 플러그인을 공개했습니다. 모두 파일 기반이며, 코드나 빌드 단계가 필요 없습니다. 오직 마크다운(markdown)과 JSON만 있으면 됩니다.

각 플러그인은 세 가지 요소를 포함합니다: 기술(skills, 구조화된 지침), 슬래시 명령어(slash commands, 빠른 실행 동작), 그리고 MCP 커넥터(MCP connectors, 외부 통합)입니다.

이 타이밍은 우연이 아닙니다. Cursor 또한 같은 주에 11개의 퍼스트 파티(first-party) 플러그인을 포함한 자체 플러그인 마켓플레이스를 출시했습니다. 두 주요 플랫폼이 며칠 간격으로 확장성 사양(extensibility specs)을 발표한 것은 모두가 의심하던 사실을 확인시켜 줍니다: IDE가 플랫폼으로 전환되는 시대가 도래했습니다.

파일 기반 방식이 중요한 이유. 대부분의 플러그인 시스템은 코드, 빌드 파이프라인(build pipelines), 패키지 관리자(package managers)를 요구합니다. Anthropic의 접근 방식은 근본적으로 더 단순합니다. 에이전트가 무엇을 알아야 하는지 설명하는 SKILL.md 파일을 작성하고, MCP 서버를 가리키는 JSON 설정을 작성하기만 하면 됩니다. 그게 전부입니다. 제품 관리자(product manager)도 터미널을 만지지 않고 플러그인을 만들 수 있습니다.

개발자들에게 이것이 의미하는 바. 만약 당신이 도구(tools)나 SaaS 제품을 만들고 있다면, 당신의 다음 경쟁자는 다른 스타트업이 아닙니다. 그것은 마크다운 (markdown) 파일 하나로 당신 기능의 80%를 복제해내는 Claude 플러그인입니다. 이러한 변화 속에서 살아남을 기업들은 플러그인이 복제할 수 없는 가치, 즉 독점적 데이터 (proprietary data), 네트워크 효과 (network effects), 그리고 파일 기반 설정으로는 너무 복잡한 통합 (integrations) 기능을 제공할 것입니다.

🔗 GitHub: anthropics/knowledge-work-plugins | 18.5K stars (+4,944/week)

Quick Hits

Google Sheets용 ChatGPT, 프롬프트 인젝션 (Prompt Injection)을 통해 워크북 유출

가져온 시트 중 하나에 흰색 텍스트로 숨겨진 단 한 번의 간접 프롬프트 인젝션 (indirect prompt injection)이 피해자의 Google 계정 전체에서 데이터 유출을 유발합니다. 사용자의 명시적인 승인이 필요한 상황에서도 발생합니다. OpenAI의 해결책은 모델이 Apps Script를 생성하는 능력을 완전히 제거하는 것이었습니다.

🔗 PromptArmor

Anthropic 엔지니어링: 제품 전반에 걸쳐 Claude를 격리하는 방법

사용자들은 권한 요청 프롬프트의 93%를 승인합니다. 승인 피로 (approval fatigue)는 실재하는 문제입니다. Mythos Preview는 지난 4월 출시하기에 너무 위험하다고 판단되었습니다. 감독 (supervision)보다는 격리 (containment)가 더 효과적입니다.

🔗 Anthropic Blog

OpenAI: Codex를 활용한 자기 개선형 세무 에이전트 (Self-Improving Tax Agents)

프로덕션 환경에서 자율적으로 성능이 향상되는 에이전트에 대한 첫 번째 실제 사례 연구입니다. 실무자 피드백, 프로덕션 트레이스 (production traces), 그리고 Codex 기반 반복 (iteration)을 통해 6주 만에 정확도가 25%에서 86%로 향상되었습니다.

🔗 OpenAI Blog

OpenAI 모델 및 Codex, Amazon Bedrock에서 GA (General Availability)

GPT-5.5, GPT-5.4, 그리고 Codex가 이제 Bedrock에서 일반적으로 사용 가능합니다 (GA). 가격은 OpenAI의 자체 요율과 동일합니다. 사용량은 기존 AWS 약정 사항에 포함됩니다.

🔗 AWS Blog

Understand-Anything: 48K Stars (+22K/week)

코드베이스의 지식 그래프 (Knowledge Graph)를 구축하는 Claude Code 플러그인입니다. 대화형 대시보드를 제공합니다. Claude Code, Codex, Cursor, Copilot, Gemini CLI와 함께 작동합니다.

🔗 GitHub

이번 주의 도구: OpenSearch Serverless 차세대 버전

OpenSearch Serverless의 완전한 재설계 (Re-architecture)가 이루어졌습니다. 이전 버전은 월 최소 300달러의 OCU 하한선 때문에 "이름만 서버리스"였습니다. 이제 실제로 제로 (Zero)까지 스케일링이 가능합니다.

변경 사항: 최소 하한선 없음. 20배 빠른 오토스케일링 (Autoscaling). 프로비저닝된 (Provisioned) 방식 대비 60% 낮은 비용. 컴퓨팅/스토리지 분리 (Decoupled). Vercel 및 Kiro와의 네이티브 통합.

선정 이유: 에이전트 메모리 (Agent Memory)를 위해 벡터 검색 (Vector Search)을 실행하는 모든 빌더들은 최소 월 300달러를 지불하거나 프로비저닝된 클러스터를 운영해야 했습니다. 이제 제로까지 스케일링할 수 있습니다. 업무 시간 동안 급증하고 밤에는 유휴 상태가 되는 RAG 워크로드의 경우, 비용이 70~80% 절감됩니다.

aws opensearch-serverless create-collection \
  --name agent-memory \
  --type VECTORSEARCH \
...

이전 vs 현재: 일일 1만 건의 쿼리를 처리하는 RAG 워크로드 비용이 월 약 350달러에서 약 45달러로 감소했습니다. 개발/테스트 환경은 월 5달러 미만으로 떨어집니다.

논문 분석: AutoSci

전체 과학 연구 라이프사이클을 위한 메모리 중심 에이전트 (Memory-Centric Agents) | ArXiv

핵심 통찰: 에이전트가 구조화된 지속성 메모리 (Persistent Memory)를 사용하여 전체 연구 파이프라인을 처리하는 통합 시스템입니다. 이 시스템은 시간이 지남에 따라 자체 절차를 개선합니다.

실질적인 시사점: 메모리를 세 가지 계층으로 분리하십시오. 에피소드 (Episodic, 무엇이 일어났는가). 절차 (Procedural, 어떻게 수행하는가). 메타 (Meta, 어떤 절차가 가장 효과적인가). 각 유형은 서로 다른 검색 (Retrieval) 전략을 가집니다.

절약된 시간: 48분 분량의 논문을 7분 만에 읽기. 6.9배 압축.

핫 테이크 (Hot Take)

Anthropic의 격리 (Containment) 관련 포스트에 따르면, 사용자의 93%가 권한 승인 프롬프트를 읽지 않고 승인합니다. 그것은 안전이 아닙니다. 그것은 단순한 형식적 승인 (Rubber stamp)일 뿐입니다.

Google Sheets 공격이 이를 증명했습니다. 인간 참여형 (Human-in-the-loop) 방식이 활성화되어 있었습니다. 사용자가 "허용"을 클릭했고, 그들의 Google 계정 전체가 유출되었습니다.

Anthropic의 자체적인 결론: 통제(containment)가 감독(supervision)보다 낫다. 위험한 행동을 정중하게 요청하는 대신, 구조적으로 불가능하게 만들어라. 권한 승인 프롬프트(permission prompt)의 시대는 종말을 맞이해야 한다.

플러그인 전쟁의 시작 — The Agentic Engineer #15

요약

핵심 포인트