FinHarness: 금융 LLM 에이전트를 위한 인라인 라이프사이클 안전 하네스
요약
금융 LLM 에이전트의 안전한 워크플로 수행을 위해 인라인 라이프사이클 안전 하네스인 FinHarness를 제안합니다. 쿼리 모니터, 도구 모니터, 캐스케이드 모듈을 통해 실시간으로 리스크를 감지하고 에이전트가 스스로 대응할 수 있도록 지원합니다.
핵심 포인트
- 금융 에이전트의 승인되지 않은 동작을 차단하는 인라인 안전 프레임워크 제안
- 쿼리, 도구 모니터링 및 적응형 캐스케이드 라우팅 모듈 구성
- 공격 성공률(ASR)을 38.3%에서 15.0%로 대폭 감소
- 고급 심사관 호출 횟수를 4.7배 절감하여 계산 효율성 확보
금융 LLM (Large Language Model) 에이전트는 프롬프트로 유도된 승인되지 않은 동작을 차단하는 동시에, 정당한 다단계 비즈니스 워크플로 (Workflow)를 승인해야 합니다. 그러나 경계 필터 (Boundary filters)는 궤적 중간의 되돌릴 수 없는 도구 호출 (Tool calls)을 놓치는 경우가 많으며, 사후 LLM 심사관 (Post-hoc LLM judges)은 종료 후에만 감사를 수행하므로 개입하기에는 너무 늦고, 추적 길이 (Trace length)에 따라 선형적으로 증가하는 계산 비용이 발생합니다. 본 논문에서는 금융 에이전트를 엔드 투 엔드 (End-to-end)로 감싸는 인라인 안전 하네스인 FinHarness를 제안합니다. 이는 세 가지 구성 요소로 이루어집니다: 단일 턴 의도 (Single-turn intent)와 교차 턴 드리프트 (Cross-turn drift)를 융합하는 쿼리 모니터 (Query Monitor), 각 잠재적 도구 호출을 평가하는 도구 모니터 (Tool Monitor), 그리고 단계별 리스크를 통합하여 경량 LLM 심사관과 고급 단계 LLM 심사관 사이에서 검증을 적응적으로 라우팅하는 캐스케이드 (Cascade) 모듈입니다. 감지된 리스크 요인은 사전적 증거 (Ex-ante evidence)로서 에이전트 입력에 재주입되어, 에이전트가 스스로 거부, 재계획 또는 승인할 수 있도록 합니다. FinVault에서 라우팅된 FinHarness는 양성 승인율 (Benign approval)을 대부분 유지하면서 ($41.1% \to 39.3%$) ASR (Attack Success Rate)을 $38.3%$에서 $15.0%$로 낮추었으며, 항상 고급 심사관을 사용하는 어블레이션 (Ablation) 모델보다 고급 심사관 호출 횟수를 $4.7\times$ 적게 사용합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기