본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:04

신뢰할 수 있는 검증 가능한 아티팩트로서의 에이전트 스킬: 인간이 루프에 포함된 에이전트 런타임용 신뢰 스키마 및 쌍조건적 정확성 기준

요약

본 논문은 에이전트 스킬(Agent skills)을 신뢰할 수 있는 검증 가능한 아티팩트로 간주하고, 이를 로드하는 런타임 환경에 대한 새로운 신뢰 프레임워크를 제안합니다. 핵심 주장은 스킬은 검증되기 전까지는 기본적으로 '신뢰할 수 없는 코드'로 취급되어야 하며, 기존의 서명이나 허가 기반 신뢰 추론 방식으로는 부족하다는 것입니다. 이를 위해 명시적인 검증 수준을 포함하는 신뢰 스키마와, 이 검증 수준에 따라 인간 개입(HITL) 정책이 동적으로 변화하는 '쌍조건적' 정확성 기준을 제시합니다.

핵심 포인트

  • 스킬은 기본적으로 신뢰할 수 없는 코드(untrusted code)로 취급되어야 하며, 런타임은 이를 강제해야 한다.
  • 기존의 서명이나 허가 기반의 신뢰 추론 방식으로는 충분하지 않다.
  • 신뢰 스키마는 모든 스킬 매니페스트에 명시적인 검증 수준을 포함하도록 요구한다.
  • 인간 개입(HITL) 정책은 스킬의 검증 수준에 따라 동적으로 변화하는 '쌍조건적' 정확성 기준을 만족해야 한다.

에이전트 스킬 (Agent skills) -- 자체 모델을 수정하지 않고 대형 언어 모델 (LLM) 을 보강하는 명령어, 스크립트, 참조가 구조화된 패키지 -- 는 편의 도구에서 첫 번째 클래스 배포 아티팩트로 변모했습니다. 이를 로드하는 런타임은 패키지 관리자 및 운영체제가 항상 직면해 온 동일한 문제를 물려받습니다: 콘텐츠가 특정 행동을 주장하며, 런타임은 이를 믿을지 여부를 결정해야 합니다. 우리는 이 논문에서 핵심 주장을 명시합니다: 스킬은 검증될 때까지 “신뢰할 수 없는 코드”이며, 이를 로드하는 런타임은 서명 (signature), 허가 (clearance), 또는 기원 등록 (registry of origin) 에서 신뢰를 추론하는 대신 이 기본값을 강제해야 합니다. 스킬 검증이 없다면 인간이 루프에 포함된 (HITL) 게이트는 모든 불가환 호출에서 작동해야 하는데, 이는 운영상 불가능하며 비약간 규모에서는 고무인장 (rubber-stamping) 으로 퇴화합니다. 스킬 검증을 별도의 게이트된 프로세스로 간주할 경우 HITL 은 검증되지 않은 것만 작동하며 시스템은 지속 가능해집니다. 우리는 명시적인 검증 수준을 모든 스킬 매니페스트에 포함하는 신뢰 스키마 (§
ef{sec:schema}), 그 검증 수준에 따라 HITL 정책이 함수가 되는 능력 게이트 (§
ef{sec:gate}), 적대적 앙상블 연습 (adversarial-ensemble exercise) (§
ef{sec:eval}) 에서 만족해야 하는 “쌍조건적” 정확성 기준 (§
ef{sec:biconditional}), 그리고 작동 중인 오픈소스 참조 구현에서 추상화한 10 가지 규범 지침을 포함하는 포터블 런타임 프로필 (§
ef{sec:guidelines}) 을 제시합니다. 이 기여는 해시 (harness) 및 모델에 무관하며, 여기에는 재학습, 미세 조정 또는 독점 인프라가 필요 없습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0