AI 에이전트 기술(AI Agent Skills): 조합 가능하고 진화 가능한 에이전트 역량을 위한 신흥 아키텍처

첫 번째 프로덕션 에이전트(production agents)의 물결을 이끌었던 도구 추상화(tools abstraction)가 한계에 부딪히고 있습니다. 에이전트가 "코드를 리뷰"해야 할 때, 단순히 함수를 호출하는 것에 그치지 않습니다. 메모리에서 이전 리뷰 코멘트를 읽고, 코드베이스에 대해 학습된 휴리스틱(heuristics)을 적용하며, 작성자에 맞춰 비판 스타일을 조정하고, 과거의 제안이 수용되었는지 여부에 따라 접근 방식을 개선합니다. 이것은 상태가 없는(stateless) 함수 호출이 아닙니다. 이것은 하나의 _기술(skill)_입니다. 그리고 지난 4개월 동안, 전체 에이전트 프레임워크 생태계는 놀라운 속도로 이러한 차이점에 수렴해 왔습니다.

서론: 도구에서 기술로 — 에이전트 설계의 패러다임 전환

연구 커뮤니티가 기술(skills)로 중심을 옮긴 것은 극적입니다. 2026년 2월 이후, 기술 아키텍처(skill architectures), 기술 학습(skill learning), 그리고 기술 평가(skill evaluation)를 명시적으로 다루는 20편 이상의 논문이 발표되었습니다. 이는 이 분야가 에이전트를 구축하는 방식에서 근본적인 격차를 식별했음을 나타내는 신호입니다. 1월에 발표된 에이전트 AI 아키텍처 서베이(agentic AI architectures survey)는 "반응형 도구 사용(reactive tool use)"과 "주도적 역량 개발(proactive capability development)"을 구분하며 이론적 토대를 마련했습니다. 3월에 이르러 주요 프레임워크들도 이에 주목하기 시작했습니다.

왜 갑작스러운 수렴이 일어났을까요? 추론 모델(reasoning models)—o1, R1, Gemini 2.5—의 등장이 마침내 에이전트에게 진정한 기술 습득 및 조합을 위한 인지적 마력(cognitive horsepower)을 부여했기 때문입니다. 이전 모델들은 지시를 받았을 때 도구를 _사용_할 수 있었지만, 추론 모델은 역량을 언제 어떻게 결합할지, 기술이 실패하는 시점을 언제인지 인식하고, 개선안을 제안하며 _학습_할 수 있습니다. 에이전트 추론에 관한 연구(Research on agentic reasoning)에 따르면, 이러한 모델들은 가공되지 않은 도구 접근 권한 대신 기술 수준의 추상화(skill-level abstractions)가 주어졌을 때 다단계 작업(multi-step tasks)에서 40-60% 더 나은 성능을 달성하는 것으로 나타났습니다.

나의 논지: 스킬(Skills)은 에이전트형 AI(agentic AI)의 "패키지 매니저(package manager)" 모멘트를 상징합니다. npm이 JavaScript 코드를 진정으로 재사용 가능하고 조합 가능하게 만든 것처럼, 스킬 아키텍처는 에이전트의 역량을 진정으로 공유 가능하고 진화 가능하게 만듭니다. 우리는 이제 "무언가를 할 수 있는 에이전트"에서 "무언가를 더 잘하는 법을 배울 수 있는 에이전트"로 나아가고 있습니다.

스킬 아키텍처 스택: 현대적 에이전트 스킬의 해부학

스킬 아키텍처를 이해하려면 정의(definition), 런타임(runtime), 라이프사이클(lifecycle)이라는 세 가지 계층으로 생각해야 합니다. 각 계층은 도구 기반(tools-based) 접근 방식이 해결하지 못했던 별개의 문제를 다룹니다.

**스킬 정의(Skill Definition)**는 스킬이 무엇을 하는지, 무엇을 필요로 하는지, 그리고 무엇을 생성하는지를 설명하는 스키마(schema)와 메타데이터(metadata)를 포함합니다. (함수 시그니처(function signatures)만을 지정하는) 도구 스키마와 달리, 스킬 스키마에는 역량 선언(capability declarations), 메모리 액세스 패턴(memory access patterns), 그리고 조합 규칙(composition rules)이 포함됩니다. LangChain의 접근 방식은 스킬을 타입이 지정된 상태(typed state)를 가진 일급 그래프 노드(first-class graph nodes)로 정의하며, CrewAI는 명시적인 권한 범위(permission scopes)를 통해 스킬을 에이전트 역할(agent roles)에 결합합니다. 새롭게 등장하는 SkillNet 교환 형식(SkillNet interchange format, 여러 2026 프레임워크 비교에서 참조됨)은 스킬을 프레임워크 간에 이식 가능하게 만드는 것을 목표로 하지만, 도입 초기 단계에 머물러 있습니다.

**스킬 런타임(Skill Runtime)**은 실행 컨텍스트(execution context)와 메모리 액세스를 처리합니다. 이곳이 바로 도구(tools)와 스킬(skills)의 구분이 가장 중요한 지점입니다. 스킬 런타임은 다음을 제공합니다: (1) 관련 과거 경험을 검색하기 위한 에피소드 메모리(episodic memory)에 대한 액세스, (2) 스킬 내에서의 다단계 추론(multi-step reasoning)을 위한 작업 메모리(working memory), (3) 하위 수준의 역량을 호출하기 위한 도구 위임(tool delegation). AutoGen의 공유 상태(shared state) 논의는 이 부분의 복잡성을 보여줍니다. 즉, 에이전트는 스킬이 어떤 메모리를 읽을 수 있고 어떤 메모리를 수정할 수 있는지에 대해 세밀한 제어(fine-grained control)를 할 수 있어야 합니다.

**기술 생명주기 (Skill Lifecycle)**는 버전 관리(versioning), 평가(evaluation), 그리고 폐기(deprecation)를 관리합니다. 멀티 에이전트 시스템 개발에 관한 연구에 따르면, 실제 운영 환경에서 발생하는 에이전트 실패의 34%가 기술 버전 불일치 또는 평가되지 않은 기술 변경에서 기인한 것으로 나타났습니다. 현대적인 기술 아키텍처는 기술을 소프트웨어 패키지처럼 취급합니다. 즉, 유의적 버전 관리 (semantic versioning), 의존성 선언 (dependency declarations), 그리고 명시적인 폐기 정책 (explicit deprecation policies)을 적용합니다.

역량 선언 패턴 (capability declaration pattern)은 특별한 주의를 기울일 가치가 있습니다. 결정론적 사전 동작 권한 부여 연구에서 착안하여, 이제 기술은 필요한 권한을 사전에 선언합니다. 예를 들어, "코드 리뷰 (code review)" 기술은 다음과 같이 선언할 수 있습니다: requires: [read:repository, read:pull_request, write:comments]. 런타임 (runtime)은 이러한 경계를 강제하여, 기술이 허용되지 않은 동작으로 표류(drift)하는 것을 방지합니다. 권한 부여 문헌에서 SkillScope라고 불리는 이러한 최소 권한 원칙 (least-privilege approach)은 감사 요건이 엄격한 기업용 배포 환경에서 필수적입니다.

조합 프리미티브 (Composition primitives)는 기술들이 함께 작동할 수 있도록 합니다. 기술 체이닝 (Skill chaining)은 역량들을 순차적으로 연결합니다 (연구 → 요약 → 인용). 기술 위임 (Skill delegation)은 하나의 기술이 다른 기술을 호출할 수 있게 합니다 ("보고서 작성" 기술이 "차트 생성" 기술에 위임). 기술 폴백 계층 구조 (Skill fallback hierarchies)는 우아한 성능 저하 (graceful degradation)를 제공합니다 ("시맨틱 검색 (semantic search)" 기술을 시도하되, 실패 시 "키워드 검색 (keyword search)" 기술로 폴백). 이러한 패턴들은 현재 LangGraph의 에이전트 프레임워크에서 기본적으로 지원됩니다.

기술 습득 (Skill Acquisition): 에이전트가 새로운 역량을 학습하는 방법

가장 심오한 변화는 단순히 기술을 "가지는" 것이 아니라, 에이전트가 기술을 어떻게 "습득하는가"에 있습니다. 2026년 연구에서는 세 가지 뚜렷한 경로가 등장했으며, 각 경로는 운영 시스템에 대해 서로 다른 트레이드오프 (tradeoffs)를 가집니다.

**인간이 작성한 기술 (Human-authored skills)**은 여전히 기초로 남아 있습니다. 개발자가 기술 코드를 작성하고, 스키마 (schema)를 정의하며, 이를 에이전트에 등록합니다. 이 접근 방식은 최대의 제어력과 신뢰성을 제공하지만, 확장성 (scale)이 떨어집니다. 프레임워크 비교 분석 (Framework comparison analyses)에 따르면, 인간이 작성한 기술은 테스트와 문서화를 포함하여 기술당 일반적으로 2~4시간의 엔지니어링 시간이 소요됩니다. 핵심 비즈니스 로직 (core business logic)의 경우 이러한 투자가 타당하지만, 롱테일 기능 (long-tail capabilities)의 경우에는 비용이 너무 많이 듭니다.

**시연을 통해 학습된 기술 (Demonstration-learned skills)**은 중간 지점을 나타냅니다. 에이전트는 인간이 작업을 수행하는 것을 관찰하며—도구 호출 (tool invocations)을 지켜보고, 내려진 결정을 읽고, 결과를 기록하며—재사용 가능한 기술 표현 (skill representation)을 추출합니다. 도구 사용 능력 (tool use capabilities)에 관한 연구에 따르면, 시연 학습 (demonstration learning)은 인간의 노력을 10배 적게 들이면서도 인간이 작성한 기술 품질의 70-80%를 달성합니다. 핵심 통찰은 다음과 같습니다: 시연은 단순히 무엇을 했는지뿐만 아니라, 결정 지점, 고려된 대안, 적용된 성공 기준과 같은 왜 했는지를 포착해야 합니다.

**자율 진화 기술 (Self-evolved skills)**은 자율성 (autonomy)을 더욱 확장합니다. 에이전트는 기술 후보를 생성하고, 작업 결과에 대해 이를 테스트하며, 강화학습 (reinforcement learning)을 통해 이를 개선합니다. [에이전트 강화학습 (agentic reinforcement learning)]에 관한 연구 (Research)에서는 기술 훈련을 위해 GRPO (Group Relative Policy Optimization)를 도입하였는데, 이는 단순히 최종 작업의 성공뿐만 아니라 기술 호출 결정에 대해 단계별 보상 (step-wise rewards)을 제공합니다. 이를 통해 에이전트는 미묘한 기술 선택을 학습할 수 있습니다: 예를 들어,

에이전틱 AI (Agentic AI)의 향후 경로에 관한 challenges research는 스스로 진화한 기술 (self-evolved skills)에는 견고한 평가 인프라 (evaluation infrastructure)가 필요함을 강조합니다. 이것이 없다면, 에이전트는 '자신 있게 틀린 기술 (confidently wrong skills)'을 개발할 수 있습니다. 즉, 훈련 시에는 작동하는 것처럼 보이지만 실제 운영 환경 (production)에서는 처참하게 실패하는 역량을 의미합니다. 해당 논문은 '기술 격리 (skill quarantine)' 패턴을 권장합니다. 새로 진화한 기술은 평가 지표 (evaluation metrics)가 미리 정해진 임계값 (thresholds)을 통과할 때까지 섀도 모드 (shadow mode)로 실행되며, 출력값은 기록되지만 실제 동작으로 이어지지는 않습니다.

실제 운영을 위한 실용적인 패턴이 등장하고 있습니다. 핵심 경로 (critical paths)를 위해서는 사람이 작성한 핵심 기술 (human-authored core skills)로 시작하고, 도메인 적응 (domain adaptation)을 위해 시연 학습 (demonstration-learning)을 활성화하며 (파워 유저가 에이전트에게 자신의 워크플로우를 가르칠 수 있도록 함), 스스로 진화하는 능력은 잘 정의된 범위 내의 역량 개선으로 제한하는 방식입니다. XAgen의 설명 가능성 연구 (explainability work)는 특정 방향으로 기술이 왜 진화했는지 이해하기 위한 도구를 제공하며, 이는 스스로 개선되는 시스템 (self-improving systems)에서 신뢰를 유지하는 데 필수적입니다.

경험 압축 스펙트럼 (experience compression spectrum)은 유용한 사고 모델을 제공합니다. 모든 학습이 기술이 되어야 하는 것은 아닙니다. 어떤 것들은 에피소드 기억 (episodic memories, 관련 있을 때 검색할 특정 사례)으로 남아야 합니다. 다른 것들은 기술 (skills, 이름을 붙이고 버전을 관리할 가치가 있는 재사용 가능한 역량)로 결정화됩니다. 소수는 규칙 (rules, 항상 유지되어야 하는 불변량)으로 부호화되어야 합니다. AI 에이전트 소프트웨어 아키텍처 진화 (AI agent software architecture evolution) 논문은 의사결정 휴리스틱 (decision heuristics)을 제공합니다. 만약 해당 역량을 100회 이상 호출할 예정이고 다단계 추론 (multi-step reasoning)이 필요하다면, 그것은 기술 후보 (skill candidate)입니다.

실습: 코드 워크스루 (Code Walkthrough)

현재 사용 가능한 API를 사용하여 기술 기반 연구 에이전트 (skill-enabled research agent)를 구축해 보겠습니다. 이 예제는 정의 (definition), 등록 (registration), 호출 (invocation), 메모리 통합 (memory integration), 그리고 기본적인 자기 개선 (self-improvement)에 이르는 전체 기술 생명주기 (skill lifecycle)를 보여줍니다.

"""
LangGraph와 LangChain 패턴을 사용한 스킬 기반 리서치 에이전트.
스킬 정의, 조합(composition), 메모리 결합(memory coupling), 그리고 평가를 시연합니다.
필수 라이브러리: langgraph>=0.5.0, langchain-core>=0.3.0, langchain-anthropic>=0.2.0
"""

from typing import TypedDict, Literal, Optional
from dataclasses import dataclass, field
from datetime import datetime
import json

from langgraph.graph import StateGraph, END
from langgraph.prebuilt import ToolNode
from langchain_core.messages import HumanMessage, AIMessage
from langchain_anthropic import ChatAnthropic

# --- 스킬 스키마 정의 (Skill Schema Definition) ---
# 스킬은 단순한 도구(tool) 그 이상입니다: 역량(capabilities), 메모리 접근, 그리고 조합 규칙을 선언합니다.

@dataclass
class SkillMetadata:
    """스킬 버전 관리 및 거버넌스를 위한 메타데이터."""
    name: str
    version: str  # Semver: 스킬의 주요 변경 사항(breaking changes)은 에이전트를 중단시킵니다.
    author: str
    required_permissions: list[str]  # SkillScope 스타일 선언
    memory_access: Literal["none", "read", "read_write"]
    delegatable: bool = True  # 이 스킬이 다른 스킬을 호출할 수 있습니까?

@dataclass  
class SkillExecutionContext:
    """실행 중인 스킬에 제공되는 런타임 컨텍스트."""
    episodic_memory: list[dict]  # 검색된 관련 과거 경험들
    working_memory: dict  # 다단계 추론을 위한 임시 작업 공간(scratch space)
    available_skills: list[str]  # 이 스킬이 위임할 수 있는 스킬 목록
    trace_id: str  # 평가 및 감사를 위한 ID

@dataclass
class SkillResult:
    """출처 정보(provenance)가 포함된 표준화된 스킬 출력."""
    output: dict
    confidence: float
    sources_used: list[str]
    delegated_to: list[str]  # 호출된 스킬 목록
    memory_writes: list[dict]  # 영구 저장되어야 할 내용들
    execution_time_ms: int
    tokens_used: int

# --- 구체적인 스킬 구현 (Concrete Skill Implementation) ---
# 메모리 결합과 도구 위임을 시연하는 WebResearchSkill입니다.

```python
class WebResearchSkill:
    """
    메모리와 학습 기능을 갖춘 웹 조사(web research)를 수행하기 위한 기술(skill)입니다.
    단순한 검색 도구(search tool)와 달리, 이 기술은 다음과 같은 특징을 가집니다:
    - 메모리로부터 유사한 주제에 대한 과거 조사 내용을 검색합니다.
    - 이전에 효과적이었던 방식에 따라 검색 전략을 조정합니다.
    - 성공적인 조사 패턴을 향후 사용을 위해 저장합니다.
    """

    metadata = SkillMetadata(
        name="web_research",
        version="1.2.0",
        author="research_team",
        required_permissions=["search:web", "read:memory", "write:memory"],
        memory_access="read_write",
        delegatable=True
    )

    def __init__(self, llm: ChatAnthropic, search_tool: callable):
        self.llm = llm
        self.search_tool = search_tool

    async def execute(
        self, 
        query: str, 
        depth: Literal["quick", "standard", "comprehensive"],
        context: SkillExecutionContext
    ) -> SkillResult:
        """메모리 정보를 바탕으로 전략을 선택하여 조사를 실행합니다."""

        start_time = datetime.now()
        tokens = 0
        sources = []

        # 1단계: 에피소드 메모리(episodic memory)에서 관련 있는 과거 조사 내용을 검색합니다.
        # 이것이 기술(skill)과 도구(tool)를 구분 짓는 핵심 요소입니다.
        past_research = [
            mem for mem in context.episodic_memory 
            if mem.get("skill") == "web_research" 
            and self._topic_similarity(query, mem.get("query", "")) > 0.7
        ]

AI 에이전트 기술(AI Agent Skills): 조합 가능하고 진화 가능한 에이전트 역량을 위한 신흥 아키텍처

요약

핵심 포인트

AI 에이전트 기술(AI Agent Skills): 조합 가능하고 진화 가능한 에이전트 역량을 위한 신흥 아키텍처

서론: 도구에서 기술로 — 에이전트 설계의 패러다임 전환

스킬 아키텍처 스택: 현대적 에이전트 스킬의 해부학

기술 습득 (Skill Acquisition): 에이전트가 새로운 역량을 학습하는 방법

실습: 코드 워크스루 (Code Walkthrough)

댓글