arXiv논문2026. 06. 02. 13:06

적응형 에이전트의 행동 궤적 추적하기

요약

에이전트의 스킬, 메모리, 행동 설정 파일의 변화를 통해 에이전트의 특성 변화를 측정하는 새로운 방법론을 제시합니다. 임베딩 공간 내 특성 벡터를 학습하여 에이전트의 행동 궤적을 정량적으로 평가하고 추적할 수 있습니다.

핵심 포인트

텍스트 임베딩 기반의 에이전트 특성 측정 프레임워크 제안
스킬 파일의 차이(diffs)를 이용한 선형 모델 학습
민감 데이터 탐색 성향 측정 시 91.2%의 분류 정확도 달성
에이전트 간 프로토콜을 통한 신뢰할 수 있는 업데이트 평가 가능

스킬 파일 (skill files), 메모리 파일 (memory files), 행동 설정 파일 (behavioral configuration files)과 같은 텍스트 파일은 현대적 에이전트 (agents)가 어떻게 행동하는지를 정의하는 데 핵심적인 역할을 합니다. 인간 또는 에이전트 스스로의 편집을 통해 이러한 파일들은 시간이 지남에 따라 진화할 수 있으며, 이는 향후 상호작용에서 에이전트의 행동을 직접적으로 조종할 수 있습니다. 우리는 텍스트 임베딩 모델 (text embedding model)의 임베딩 공간 (embedding space) 내의 방향으로 특성 (traits)을 정의함으로써, 에이전트의 특성을 측정하기 위한 방법론과 프레임워크를 제시합니다. 우리는 라벨링된 "이전" 대 "이후" 스킬 파일 차이 (diffs)를 기반으로 선형 모델 (linear model)을 학습시켜 특성 벡터 (trait vector)를 학습하며, 그 후 임의의 스킬 편집 사항의 임베딩 차이를 이 벡터에 투영 (projecting)함으로써 점수를 매깁니다. 민감한 데이터를 탐색하려는 성향 (propensity to seek sensitive data)이라는 특성에 대해 라벨링된 68개의 스킬 차이 쌍을 대상으로 평가한 결과, 우리의 방법론은 Leave-one-out 교차 검증 (cross-validation) 하에서 91.2%의 부호 분류 정확도 (sign classification accuracy)와 $ρ= 0.82$의 스피어만 순위 상관계수 (Spearman rank correlation)를 달성했습니다. 우리는 이 특성 평가를 더 넓은 에이전트 간 프로토콜 (agent-to-agent protocol)로 구축하여, 하나의 에이전트가 신뢰할 수 있는 중개자 (trusted intermediary)를 통해 다른 에이전트의 스킬 파일 업데이트를 평가할 수 있도록 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

적응형 에이전트의 행동 궤적 추적하기

요약

핵심 포인트

댓글