분해가 곧 지문이다: 에이전트 기술을 위한 구성 요소별 식별성
요약
AI 에이전트의 기술(skill) 관리를 위해 구성 요소별 식별성을 제공하는 새로운 지문(fingerprint) 기술을 제안합니다. SimHash를 활용해 프롬프트, 코드, 도구를 분리하여 식별함으로써 기술의 계보를 추적하고 변조된 복사본을 효과적으로 탐지합니다.
핵심 포인트
- 구성 요소별(프롬프트, 코드, 도구) 트리플 구조를 통한 기술 식별성 확보
- SimHash 기반의 120바이트 고정 크기 지역 민감형 지문 제공
- 패러프레이징이나 리팩토링 시에도 기술 제품군(skill-family) 식별 가능
- 임베딩 대비 77배 적은 비트를 사용하며 높은 AUC 성능 달성
- 행동 검증을 보완하는 기술 레지스트리용 'SkillBOM' 개념 제시
AI 에이전트는 마켓플레이스나 다른 에이전트로부터 가져온 프롬프트 지침(prompt instructions), 실행 가능한 코드(executable code), 도구 선언(tool declarations)의 묶음인 기술(skills)을 런타임에 점점 더 많이 습득하고 실행합니다. 이들을 관리하기 위해서는 기술 식별성(skill identity)에 대한 안정적인 개념이 필요하지만, 암호화 해싱(cryptographic hashing)은 단 한 글자의 수정만으로도 다이제스트(digest)를 뒤섞어버리기 때문에 우리가 필요로 하는 유사성을 파괴하도록 설계되어 있습니다. 우리는 기술의 각 구성 요소를 임베딩(embedding)하고 멀티 뱅크 SimHash를 통해 비트로 투영하는 컴팩트한 지역 민감형 지문(locality-sensitive fingerprint)을 제시하며, 이는 해밍 거리(Hamming distance)를 통해 상수 시간 내에 비교 가능한 고정된 120바이트 서명을 제공합니다. 우리의 핵심 주장은 지문을 단일 점수가 아닌 구성 요소별 트리플(per-component triple: 프롬프트, 코드, 도구)로 유지하는 것이 유용성을 만드는 핵심이라는 점입니다. 이 트리플은 다른 구성 요소가 공유되는 동안 패러프레이징(paraphrase), 이름 변경(renaming), 리팩토링(refactoring), 제어된 코드 번역(controlled code translation)을 통해 기술 제품군(skill-family)의 식별성을 복구하는 반면, 독립적인 다국어 재구현(multilingual reimplementation)은 복구하지 않습니다. 또한 이는 어떤 구성 요소가 재사용을 포함하고 있는지 국지화(localize)합니다. 우리는 행동적 동등성(behavioral equivalence)이 아닌 계보(lineage)를 주장합니다. 식별성은 레지스트리의 구조적 축을 제공하며, 안전성은 행동 검증(behavioral verification)에 맡깁니다. 이 지문은 근사하는 임베딩보다 77배 적은 비트를 사용하면서도 4,950개의 쌍별 비교(pairwise comparisons)에 대해 0.974(95% CI [0.956, 0.994])의 ROC 곡선 아래 면적(AUC)에 도달하며, 기대값 내에서 순위가 보존되고 유한 비트 집중(finite-bit concentration)을 보여줍니다. 구성 요소별 분할은 하나의 숫자를 관계 분류, 제품군, 신규성, 그리고 기술 레지스트리를 위한 휴대 가능한 "SkillBOM"으로 변환합니다. 906개의 기술 주입 벤치마크에서 이 지문은 주입된 기술을 알려진 베이스의 변조된 복사본으로 인식하고 변경 사항을 국지화하지만, 인식이 곧 신뢰는 아닙니다. 설계상 이 지문은 안전 판결이라기보다 행동 검증을 보완하는 식별 신호로 남습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기