플러그인 전쟁의 시작 — The Agentic Engineer #15
요약
Anthropic이 Claude를 도메인 전문가로 변모시키는 11개의 오픈 소스 파일 기반 플러그인을 공개했습니다. 또한 OpenSearch Serverless의 비용 절감 업데이트와 자가 개선 에이전트의 성능 향상에 관한 연구 결과가 소개되었습니다.
핵심 포인트
- Anthropic의 플러그인은 마크다운과 JSON만 사용하는 단순한 파일 기반 방식임
- IDE가 단순 도구를 넘어 플랫폼으로 진화하며 플러그인 생태계 경쟁 심화
- OpenSearch Serverless가 스케일 투 제로 기능을 통해 비용 효율성 개선
- 자가 개선 에이전트의 프로덕션 환경 정확도가 25%에서 86%로 대폭 향상
여러분이 직접 읽지 않아도 되도록 제가 저장소(repos)를 읽어드립니다. 빌더들을 위한 주간 에이전틱 AI(agentic AI) 인텔리전스.
요약 (TL;DR)
- 🔌 Anthropic이 Claude Cowork를 위한 11개의 지식 작업(knowledge-work) 플러그인을 오픈 소스로 공개했습니다. 파일 기반이며, 코드나 빌드 단계가 필요 없습니다. 플러그인이 새로운 해자(moat)가 되었습니다.
- 🛠️ OpenSearch Serverless 차세대 버전이 월 300달러의 최소 비용을 없앴습니다. 에이전트 메모리 워크로드(workloads)를 위한 스케일 투 제로(Scale-to-zero) 벡터 검색 기능이 포함되었습니다. 이번 주의 도구(Tool of the Week)입니다.
- 📄 새로운 논문에 따르면 자가 개선(self-improving) 에이전트의 정확도가 프로덕션 환경에서 25%에서 86%로 향상되었습니다. 대규모 환경에서 자율 에이전트 개선을 다룬 첫 번째 실제 사례 연구입니다.
주요 뉴스: Anthropic, 11개의 지식 작업 플러그인 오픈 소스 공개
Anthropic이 플러그인 전쟁에서 가장 명확한 행보를 보였습니다. Claude를 영업, 법률, 금융, 데이터 분석, 마케팅, 고객 지원 및 기타 5개 분야의 도메인 전문가로 변모시키는 11개의 오픈 소스 플러그인을 공개했습니다. 모두 파일 기반이며, 코드나 빌드 단계가 필요 없습니다. 오직 마크다운(markdown)과 JSON만 있으면 됩니다.
각 플러그인은 세 가지 요소를 포함합니다: 기술(skills, 구조화된 지침), 슬래시 명령어(slash commands, 빠른 실행 동작), 그리고 MCP 커넥터(MCP connectors, 외부 통합)입니다.
이 타이밍은 우연이 아닙니다. Cursor 또한 같은 주에 11개의 퍼스트 파티(first-party) 플러그인을 포함한 자체 플러그인 마켓플레이스를 출시했습니다. 두 주요 플랫폼이 며칠 간격으로 확장성 사양(extensibility specs)을 발표한 것은 모두가 의심하던 사실을 확인시켜 줍니다: IDE가 플랫폼으로 전환되는 시대가 도래했습니다.
파일 기반 방식이 중요한 이유. 대부분의 플러그인 시스템은 코드, 빌드 파이프라인(build pipelines), 패키지 관리자(package managers)를 요구합니다. Anthropic의 접근 방식은 근본적으로 더 단순합니다. 에이전트가 무엇을 알아야 하는지 설명하는 SKILL.md 파일을 작성하고, MCP 서버를 가리키는 JSON 설정을 작성하기만 하면 됩니다. 그게 전부입니다. 제품 관리자(product manager)도 터미널을 만지지 않고 플러그인을 만들 수 있습니다.
개발자들에게 이것이 의미하는 바. 만약 당신이 도구(tools)나 SaaS 제품을 만들고 있다면, 당신의 다음 경쟁자는 다른 스타트업이 아닙니다. 그것은 마크다운 (markdown) 파일 하나로 당신 기능의 80%를 복제해내는 Claude 플러그인입니다. 이러한 변화 속에서 살아남을 기업들은 플러그인이 복제할 수 없는 가치, 즉 독점적 데이터 (proprietary data), 네트워크 효과 (network effects), 그리고 파일 기반 설정으로는 너무 복잡한 통합 (integrations) 기능을 제공할 것입니다.
🔗 GitHub: anthropics/knowledge-work-plugins | 18.5K stars (+4,944/week)
Quick Hits
Google Sheets용 ChatGPT, 프롬프트 인젝션 (Prompt Injection)을 통해 워크북 유출
가져온 시트 중 하나에 흰색 텍스트로 숨겨진 단 한 번의 간접 프롬프트 인젝션 (indirect prompt injection)이 피해자의 Google 계정 전체에서 데이터 유출을 유발합니다. 사용자의 명시적인 승인이 필요한 상황에서도 발생합니다. OpenAI의 해결책은 모델이 Apps Script를 생성하는 능력을 완전히 제거하는 것이었습니다.
Anthropic 엔지니어링: 제품 전반에 걸쳐 Claude를 격리하는 방법
사용자들은 권한 요청 프롬프트의 93%를 승인합니다. 승인 피로 (approval fatigue)는 실재하는 문제입니다. Mythos Preview는 지난 4월 출시하기에 너무 위험하다고 판단되었습니다. 감독 (supervision)보다는 격리 (containment)가 더 효과적입니다.
OpenAI: Codex를 활용한 자기 개선형 세무 에이전트 (Self-Improving Tax Agents)
프로덕션 환경에서 자율적으로 성능이 향상되는 에이전트에 대한 첫 번째 실제 사례 연구입니다. 실무자 피드백, 프로덕션 트레이스 (production traces), 그리고 Codex 기반 반복 (iteration)을 통해 6주 만에 정확도가 25%에서 86%로 향상되었습니다.
OpenAI 모델 및 Codex, Amazon Bedrock에서 GA (General Availability)
GPT-5.5, GPT-5.4, 그리고 Codex가 이제 Bedrock에서 일반적으로 사용 가능합니다 (GA). 가격은 OpenAI의 자체 요율과 동일합니다. 사용량은 기존 AWS 약정 사항에 포함됩니다.
🔗 AWS Blog
Understand-Anything: 48K Stars (+22K/week)
코드베이스의 지식 그래프 (Knowledge Graph)를 구축하는 Claude Code 플러그인입니다. 대화형 대시보드를 제공합니다. Claude Code, Codex, Cursor, Copilot, Gemini CLI와 함께 작동합니다.
🔗 GitHub
이번 주의 도구: OpenSearch Serverless 차세대 버전
OpenSearch Serverless의 완전한 재설계 (Re-architecture)가 이루어졌습니다. 이전 버전은 월 최소 300달러의 OCU 하한선 때문에 "이름만 서버리스"였습니다. 이제 실제로 제로 (Zero)까지 스케일링이 가능합니다.
변경 사항: 최소 하한선 없음. 20배 빠른 오토스케일링 (Autoscaling). 프로비저닝된 (Provisioned) 방식 대비 60% 낮은 비용. 컴퓨팅/스토리지 분리 (Decoupled). Vercel 및 Kiro와의 네이티브 통합.
선정 이유: 에이전트 메모리 (Agent Memory)를 위해 벡터 검색 (Vector Search)을 실행하는 모든 빌더들은 최소 월 300달러를 지불하거나 프로비저닝된 클러스터를 운영해야 했습니다. 이제 제로까지 스케일링할 수 있습니다. 업무 시간 동안 급증하고 밤에는 유휴 상태가 되는 RAG 워크로드의 경우, 비용이 70~80% 절감됩니다.
aws opensearch-serverless create-collection \
--name agent-memory \
--type VECTORSEARCH \
...
이전 vs 현재: 일일 1만 건의 쿼리를 처리하는 RAG 워크로드 비용이 월 약 350달러에서 약 45달러로 감소했습니다. 개발/테스트 환경은 월 5달러 미만으로 떨어집니다.
논문 분석: AutoSci
전체 과학 연구 라이프사이클을 위한 메모리 중심 에이전트 (Memory-Centric Agents) | ArXiv
핵심 통찰: 에이전트가 구조화된 지속성 메모리 (Persistent Memory)를 사용하여 전체 연구 파이프라인을 처리하는 통합 시스템입니다. 이 시스템은 시간이 지남에 따라 자체 절차를 개선합니다.
실질적인 시사점: 메모리를 세 가지 계층으로 분리하십시오. 에피소드 (Episodic, 무엇이 일어났는가). 절차 (Procedural, 어떻게 수행하는가). 메타 (Meta, 어떤 절차가 가장 효과적인가). 각 유형은 서로 다른 검색 (Retrieval) 전략을 가집니다.
절약된 시간: 48분 분량의 논문을 7분 만에 읽기. 6.9배 압축.
핫 테이크 (Hot Take)
Anthropic의 격리 (Containment) 관련 포스트에 따르면, 사용자의 93%가 권한 승인 프롬프트를 읽지 않고 승인합니다. 그것은 안전이 아닙니다. 그것은 단순한 형식적 승인 (Rubber stamp)일 뿐입니다.
Google Sheets 공격이 이를 증명했습니다. 인간 참여형 (Human-in-the-loop) 방식이 활성화되어 있었습니다. 사용자가 "허용"을 클릭했고, 그들의 Google 계정 전체가 유출되었습니다.
Anthropic의 자체적인 결론: 통제(containment)가 감독(supervision)보다 낫다. 위험한 행동을 정중하게 요청하는 대신, 구조적으로 불가능하게 만들어라. 권한 승인 프롬프트(permission prompt)의 시대는 종말을 맞이해야 한다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기