SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)
요약
LLM 에이전트용 스킬 마켓플레이스에서 개별 스킬의 조합으로 발생하는 '암시적 의도'를 탐지하기 위한 SkillFuzz를 제안합니다. 실행 없이도 몬테카를로 트리 탐색을 통해 충돌하는 스킬 조합을 효율적으로 찾아내는 연구입니다.
핵심 포인트
- 스킬 조합 시 발생하는 의도하지 않은 목표(암시적 의도) 탐지 문제 정의
- 실행 환경 없이 계획 산출물을 분석하는 execution-free 테스트 방식 제안
- 계약 가이드 MCTS를 활용한 충돌 가능성 높은 스킬 조합 우선순위 선정
- 기존 방식 대비 적은 탐색 공간으로도 높은 위험도 의도 식별 성공
대규모 언어 모델 (LLM) 기반 에이전트는 계획과 실행을 안내하는 자연어 지침 문서인 재사용 가능한 스킬을 통해 소프트웨어 엔지니어링 작업을 점점 더 자동화하고 있습니다. 오픈 스킬 마켓플레이스 (Open skill marketplaces)는 사용자가 커뮤니티에서 기여한 스킬들을 공동 활성화함으로써 에이전트를 조립할 수 있게 해주지만, 마켓플레이스 운영자들은 일반적으로 스킬을 개별적으로 감사합니다. 그 결과, 개별적으로는 무해한 스킬들이 상호작용하여 에이전트를 의도하지 않은 목표로 유도할 수 있으며, 이를 우리는 암시적 의도 (implicit intents)라고 부릅니다. 이러한 의도를 탐지하는 것은 매우 어렵습니다. 왜냐하면 그 효과가 스킬 조합 (skill composition)을 통해서만 나타나고, 실행 환경이 입점 시점에 제공되지 않는 경우가 많으며, 가능한 공동 활성화의 공간이 마켓플레이스 규모에 따라 기하급수적으로 증가하기 때문입니다. 본 논문에서 우리는 암시적 의도 발견을 스킬 조합에 대한 퍼징 (fuzzing) 문제로 공식화합니다. 여기서 스킬 조합은 테스트 대상 단위이며, 계획 산출물 (planning artifacts)은 실행 전 에이전트의 의도를 노출하고, 스킬이 없는 베이스라인으로부터의 편차는 차분 오라클 (differential oracle) 역할을 합니다. 이러한 공식화에 기반하여, 우리는 구조화된 스킬 계약 (skill contracts)을 추출하고 계약 가이드 몬테카를로 트리 탐색 (contract-guided Monte Carlo Tree Search)을 사용하여 잠재적으로 충돌하는 조합의 우선순위를 정하는 최초의 실행 불필요 (execution-free) 테스트 접근 방식인 skillfuzz를 제안합니다. 대표적인 스킬 마켓플레이스 워크로드 전반에 걸쳐, skillfuzz는 고정된 쿼리 예산 내에서 1,000개 이상의 서로 다른 암시적 의도를 발견하였고, 실행 시간 검증 과정에서 가장 위험도가 높다고 표시된 조합의 80% 이상을 확인하였으며, 다른 탐색 전략들이 요구하는 쌍별 상호작용 공간 (pairwise interaction space)의 극히 일부만을 탐색하면서도 실질적으로 더 많은 고위험 암시적 의도를 식별해냈습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기