arXiv논문2026. 06. 26. 10:48

반복적인 LLM 에이전트 루프를 위한 의미론적 조기 종료 (Semantic Early-Stopping)

요약

멀티 에이전트 LLM 루프에서 고정된 반복 횟수 대신, 임베딩의 의미적 변화와 품질 개선 여부를 판단하여 루프를 중단하는 '의미론적 조기 종료' 기법을 제안합니다. 이를 통해 답변 품질을 유지하면서도 불필요한 토큰 소비를 줄이는 효율적인 종료 메커니즘을 연구합니다.

핵심 포인트

임베딩 코사인 거리를 활용한 의미론적 조기 종료 메커니즘 제안
고정된 반복 횟수 방식 대비 운영 토큰 사용량 최대 38% 절감
판사 호출 비용을 최소화하는 효율적인 평가 프로토콜 설계
HotpotQA 벤치마크를 통한 실험적 검증 및 이론적 토대 마련

초안을 작성하는 Writer와 이를 수정하는 Critic과 같은 멀티 에이전트 대규모 언어 모델 (LLM) 루프는 거의 항상 고정된 반복 횟수 제한(max_iterations)에 의해 종료됩니다. 이는 구문론적 킬 스위치(syntactic kill-switch)입니다. 즉, 답변이 여전히 개선되고 있는지 여부를 식별하지 못하므로, 쉬운 입력에는 토큰을 과도하게 소비하고 어려운 입력은 중간에 잘라버립니다. 우리는 의미론적 조기 종료(semantic early-stopping)를 연구합니다. 즉, 연속적인 초안 임베딩(draft embeddings)의 의미가 변하지 않고(인내심 윈도우(patience window)를 적용한 코사인 거리(cosine distance)), 답변의 측정된 품질이 더 이상 개선되지 않을 때 루프를 중단합니다. 본 연구는 세 가지 기여를 합니다. 첫째, 정직한 이론적 토대입니다. 우리는 결정론적 종료(deterministic termination)와 잘 정의됨(well-definedness)을 증명하고 이러한 주장을 기계적으로 검증하는 한편, 거리 시퀀스의 수렴을 (이전에 과하게 주장되었던) 바나흐 수축(Banach contraction)이 아닌 경험적으로 테스트된 추측으로 취급합니다. 둘째, 판사 효율적인(judge-efficient) 평가 프로토콜입니다. 우리는 각 질문의 전체 궤적(trajectory)을 한 번 생성하고, 동일한 초안에 대해 모든 중단 정책을 재실행하며, 모든 LLM 판사(LLM-judge) 호출을 캐싱하여 저비용으로 엄격하게 쌍을 이룬 효율성 대비 품질 비교를 제공합니다. 나아가 우리는 운영 토큰(정책에 부과됨)과 평가 토큰(측정 도구)을 분리합니다. 셋째, 멀티홉 검색 증강 질의응답(multi-hop retrieval-augmented question answering, HotpotQA)에 대한 경험적 연구입니다. 60개 질문의 테스트 분할에서, 판사가 없는 의미론적 중단기(semantic stopper)는 동일한 품질(Delta-IS = -0.004, p = 0.81) 대비 max_iterations에 비해 운영 토큰을 38% 감소시킵니다. 반면, 전체 품질 게이트형(quality-gated) 변형은 라운드당 판정 비용이 지배적이어서 오히려 역효과를 냅니다. 가장 좋은 라운드를 선택하는 오라클(oracle)은 모든 실용적인 정책보다 +0.115의 정보 점수(Information Score)를 달성하며(p ~ 4e-11), 이 문제를 "언제 멈출 것인가"(쉬운 문제)에서 "어느 라운드가 최선인가"(열린 문제)로 재정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

반복적인 LLM 에이전트 루프를 위한 의미론적 조기 종료 (Semantic Early-Stopping)

요약

핵심 포인트

댓글