arXiv논문2026. 05. 04. 19:04

신뢰할 수 있는 검증 가능한 아티팩트로서의 에이전트 스킬: 인간이 루프에 포함된 에이전트 런타임용 신뢰 스키마 및 쌍조건적 정확성 기준

요약

본 논문은 에이전트 스킬(Agent skills)을 신뢰할 수 있는 검증 가능한 아티팩트로 간주하고, 이를 로드하는 런타임 환경에 대한 새로운 신뢰 프레임워크를 제안합니다. 핵심 주장은 스킬은 검증되기 전까지는 기본적으로 '신뢰할 수 없는 코드'로 취급되어야 하며, 기존의 서명이나 허가 기반 신뢰 추론 방식으로는 부족하다는 것입니다. 이를 위해 명시적인 검증 수준을 포함하는 신뢰 스키마와, 이 검증 수준에 따라 인간 개입(HITL) 정책이 동적으로 변화하는 '쌍조건적' 정확성 기준을 제시합니다.

핵심 포인트

스킬은 기본적으로 신뢰할 수 없는 코드(untrusted code)로 취급되어야 하며, 런타임은 이를 강제해야 한다.
기존의 서명이나 허가 기반의 신뢰 추론 방식으로는 충분하지 않다.
신뢰 스키마는 모든 스킬 매니페스트에 명시적인 검증 수준을 포함하도록 요구한다.
인간 개입(HITL) 정책은 스킬의 검증 수준에 따라 동적으로 변화하는 '쌍조건적' 정확성 기준을 만족해야 한다.

에이전트 스킬 (Agent skills) -- 자체 모델을 수정하지 않고 대형 언어 모델 (LLM) 을 보강하는 명령어, 스크립트, 참조가 구조화된 패키지 -- 는 편의 도구에서 첫 번째 클래스 배포 아티팩트로 변모했습니다. 이를 로드하는 런타임은 패키지 관리자 및 운영체제가 항상 직면해 온 동일한 문제를 물려받습니다: 콘텐츠가 특정 행동을 주장하며, 런타임은 이를 믿을지 여부를 결정해야 합니다. 우리는 이 논문에서 핵심 주장을 명시합니다: 스킬은 검증될 때까지 “신뢰할 수 없는 코드”이며, 이를 로드하는 런타임은 서명 (signature), 허가 (clearance), 또는 기원 등록 (registry of origin) 에서 신뢰를 추론하는 대신 이 기본값을 강제해야 합니다. 스킬 검증이 없다면 인간이 루프에 포함된 (HITL) 게이트는 모든 불가환 호출에서 작동해야 하는데, 이는 운영상 불가능하며 비약간 규모에서는 고무인장 (rubber-stamping) 으로 퇴화합니다. 스킬 검증을 별도의 게이트된 프로세스로 간주할 경우 HITL 은 검증되지 않은 것만 작동하며 시스템은 지속 가능해집니다. 우리는 명시적인 검증 수준을 모든 스킬 매니페스트에 포함하는 신뢰 스키마 (§
ef{sec:schema}), 그 검증 수준에 따라 HITL 정책이 함수가 되는 능력 게이트 (§
ef{sec:gate}), 적대적 앙상블 연습 (adversarial-ensemble exercise) (§
ef{sec:eval}) 에서 만족해야 하는 “쌍조건적” 정확성 기준 (§
ef{sec:biconditional}), 그리고 작동 중인 오픈소스 참조 구현에서 추상화한 10 가지 규범 지침을 포함하는 포터블 런타임 프로필 (§
ef{sec:guidelines}) 을 제시합니다. 이 기여는 해시 (harness) 및 모델에 무관하며, 여기에는 재학습, 미세 조정 또는 독점 인프라가 필요 없습니다.

AI 자동 생성 콘텐츠

원문 바로가기

신뢰할 수 있는 검증 가능한 아티팩트로서의 에이전트 스킬: 인간이 루프에 포함된 에이전트 런타임용 신뢰 스키마 및 쌍조건적 정확성 기준

요약

핵심 포인트

댓글