arXiv논문2026. 06. 19. 10:48

RACL: 연속적 메타휴리스틱 학습을 위한 추론 에이전트 제어 계층 (Reasoning-Agent Control Layers)

요약

메타휴리스틱 최적화 도구의 탐색 동작을 제어하기 위한 추론 에이전트 제어 계층(RACL) 방법론을 제안합니다. RACL은 운영 메모리를 관찰하고 가설을 수립하여 최적화 도구의 내부 동작을 제어하며, 실험 결과 기존 정책 대비 우수한 성능을 입증했습니다.

핵심 포인트

최적화 도구를 대체하지 않고 상단에서 제어하는 RACL 구조 제안
운영 메모리 관찰 및 가설 수립을 통한 알고리즘 제어 규칙 발견
차량 경로 문제 테스트베드에서 기존 정책 대비 성능 우위 확인
Codex를 활용한 실시간 개입 루프 구현 및 개념 증명 완료

본 논문은 메타휴리스틱 (metaheuristics)을 위한 추론 에이전트 제어 계층 (Reasoning-Agent Control Layer, RACL)을 소개합니다. RACL은 기존 최적화 도구 (optimizer) 상단에 추론 에이전트 (reasoning agent)를 배치합니다. 이 에이전트는 최적화 도구를 대체하거나 비즈니스 제약 조건 (business constraints)을 수정하지 않습니다. 대신, 운영 메모리 (operational memory)를 관찰하고, 과거 행동을 추론하며, 제한된 가설을 수립하고, 개입을 테스트하며, 결과를 평가하고, 가드레일 (guardrails)을 적용하며, 유용한 정책을 통합하고, 자신의 결정을 설명함으로써 최적화 도구의 내부 탐색 동작을 제어합니다. 실험에서는 차량 경로 문제 (vehicle routing)를 테스트베드로 사용하지만, 본 연구의 기여는 새로운 경로 해결사 (routing solver), 특정 ALNS 구성, 또는 특정 경로 규칙 세트가 아닙니다. 본 연구의 기여는 RACL 방법론, 즉 추론 에이전트가 메타휴리스틱을 위한 알고리즘 제어 규칙을 발견, 검증, 통합 및 설명하는 방식입니다. 현재의 실험 설정에서 RACL은 21개의 실행 가능한 사례 중 21개 모두에서 운영 메모리 정책 (Operational Memory Policy)보다 성능이 뛰어나거나 대등했으며, 21개의 실행 가능한 사례 중 18개에서 추론 기능이 없는 정체 트리거 정책 (Stagnation-Triggered Policy, STP)보다 성능이 뛰어나거나 대등했습니다. RACL 대 STP의 평균 비용 차이 (cost delta)는 -0.641%였습니다. Sevilla-9/10 실행 시간 샘플에서 RACL은 상당한 계산 오버헤드 (computational overhead)를 보이지 않으면서, 고정 방식 (Fixed) 대비 평균 비용을 -8.337% 개선하였고, STP 대비 -1.605% 개선하였습니다. 개념 증명 (proof-of-concept) 과정에서는 Codex가 실행을 관찰하고, 로그를 해석하며, 실시간 제한적 개입을 제안하는 루프 내 추론 에이전트 (in-the-loop reasoning agent)로 사용되었습니다. 정책 프록시 (policy proxy)는 이후 정량적 평가의 재현성을 확보하기 위해서만 사용되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RACL: 연속적 메타휴리스틱 학습을 위한 추론 에이전트 제어 계층 (Reasoning-Agent Control Layers)

요약

핵심 포인트

댓글