arXiv논문2026. 06. 15. 05:42

사용자와의 협업 능력 향상: 코딩 에이전트를 위한 사용자 수정 사항의 런타임 강제 적용 컴파일 기술

요약

사용자의 수정 사항을 런타임 규칙으로 컴파일하여 코딩 에이전트의 선호도 준수율을 높이는 TRACE 기술을 소개합니다. 기존 메모리 방식의 한계를 극복하여 에이전트가 사용자의 지시를 지속적으로 준수하도록 돕습니다.

핵심 포인트

TRACE는 사용자 수정 사항을 원자적 규칙으로 재작성하여 런타임 체크로 컴파일함
메모리 기반 방식의 한계인 선호도 위반 문제를 효과적으로 해결
ClawArena 실험 결과, 분포 외 작업의 선호도 위반을 100%에서 2%로 대폭 감소
사용자가 동일한 수정 사항을 반복해서 말할 필요성을 줄여 협업 효율성 증대

대화형 LLM 에이전트가 일상 업무의 일부가 되고 있지만, 시간이 지남에 따라 협업이 더 쉬워지지는 않습니다. 즉, 한 세션에서 기억된 수정 사항이 다음 세션에서도 여전히 위반될 수 있습니다. 우리는 선호도 접근(preference access)과 선호도 준수(preference compliance) 사이의 이러한 격차를 연구합니다. 익명화된 실제 사용자 마찰 사례에서 파생된 작업들을 대상으로 조사한 결과, Mem0 메모리는 적용 가능한 선호도 체크 중 여전히 57.5%를 위반하는 것으로 나타났습니다. 우리는 Test-time Rule Acquisition and Compiled Enforcement (TRACE)를 소개합니다. 이는 코딩 에이전트 런타임(runtime)을 위한 드롭인(drop-in) 기술 계층 파이프라인으로, 사용자의 수정 사항을 추출하고, 이를 원자적 규칙(atomic rules)으로 재작성하며, 에이전트가 향후 작업을 완료하기 전에 반드시 통과해야 하는 런타임 체크(runtime checks)로 컴파일합니다. 개발자가 사전에 작성한 런타임 체크와 달리, TRACE 기술은 사용자의 실제 채팅 수정 사항에서 비롯됩니다. 우리는 ClawArena 코딩 에이전트 작업 및 MemoryArena에서 파생된 메모리 집약적 작업에 대해 시뮬레이션된 사용자 참여(user-in-the-loop) 실험을 통해 TRACE를 평가했습니다. ClawArena에서 TRACE는 분포 내(in-distribution) 작업의 미보유 선호도 위반(held-out preference violation)을 100.0%에서 37.6%로 줄였으며, 분포 외(out-of-distribution) 작업에서는 100.0%에서 2.0%로 줄였습니다. MemoryArena 파생 작업에서 TRACE는 분포 내 위반을 100.0%에서 60.5%로 줄이는 동시에, 작업 통과율 측면에서 가장 강력한 메모리 베이스라인과 대등하거나 이를 상회하는 성능을 보였습니다. 이러한 결과는 수정 사항을 런타임 강제 적용(runtime enforcement)으로 컴파일하는 것이 메모리만으로는 안정적으로 해결할 수 없는 반복적인 마찰 실패 모드를 해결할 수 있음을 시사하며, 사용자가 향후 세션에서 동일한 수정 사항을 다시 말해야 하는 필요성을 줄여줍니다. 실험 코드는 https://github.com/YujunZhou/TRACE_exp 에서 확인할 수 있으며, 배포 가능한 기술은 https://github.com/YujunZhou/tellonce 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

사용자와의 협업 능력 향상: 코딩 에이전트를 위한 사용자 수정 사항의 런타임 강제 적용 컴파일 기술

요약

핵심 포인트

댓글