LedgerAgent: 정책 준수 도구 호출 에이전트를 위한 구조화된 상태 (Structured State)

고객 서비스 도메인에서의 정책 준수 도구 호출 에이전트 (Policy-adherent tool-calling agents)는 도구를 호출하고 도메인 정책을 준수하는 동안 턴(turn) 전반에 걸쳐 작업 상태 (task states)를 유지해야 합니다. 작업 상태는 사용자 상호작용과 도구 호출을 통해 관찰된 관련 사실, 식별자, 제약 조건 및 조건들로 구성됩니다. 표준 에이전트에서는 작업 상태가 별도로 표현되지 않습니다. 관찰 내용, 도구 반환 값, 정책 지침이 프롬프트 (prompt)에 배치되며, 에이전트는 다음 행동을 결정할 때마다 프롬프트로부터 관련 상태를 매번 재구성해야 합니다. 이러한 설계는 상태 관리를 암시적 (implicit)으로 만들어 두 가지 일반적인 실패 모드를 생성합니다. 에이전트가 올바른 사실을 검색하더라도 나중에 오래되거나, 누락되었거나, 잘못된 정보에 근거하여 결정을 내릴 수 있으며, 구문적으로 유효한 도구 호출이라 할지라도 현재 작업 상태에 의존하는 도메인 정책을 위반할 수 있습니다. 우리는 관찰된 작업 상태를 별도의 장부 (ledger)에 유지하고 해당 상태를 프롬프트에 렌더링하는 도구 호출 에이전트를 위한 추론 시간 (inference-time) 방법론인 \textsc{LedgerAgent}를 소개합니다. 이 장부는 환경을 변화시키는 도구 호출이 실행되기 전에 상태 의존적 정책 제약 조건을 확인하는 데에도 사용되어, 정책 위반을 차단합니다. 4개의 고객 서비스 도메인과 오픈 웨이트 (open-weight) 및 클로즈드 웨이트 (closed-weight) 모델이 혼합된 패널을 대상으로 실험한 결과, \textsc{LedgerAgent}는 표준 프롬프트 기반 도구 호출 방식보다 평균 pass\textasciicircum{}k를 향상시켰으며, 특히 더 엄격한 다중 시도 일관성 (multi-trial consistency) 지표에서 가장 큰 이득을 보였습니다.

Insights

LedgerAgent: 정책 준수 도구 호출 에이전트를 위한 구조화된 상태 (Structured State)

요약

핵심 포인트

댓글

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다