연속적 무작위 소비를 동반한 온라인 자원 할당: 퇴화(Degeneracy) 상황에서의 후회(Regret)

우리는 보상(reward)과 소비 크기(consumption sizes)가 모두 연속적으로 분포될 수 있는 온라인 자원 할당(online resource allocation) 문제를 연구합니다. 요청(request)은 순차적으로 도착하며, 고정된 자원 용량(resource capacities) 하에서 취소 불가능하게 수락(accept)되거나 거절(reject)되어야 합니다. 각 요청은 유한하게 존재하는 관찰 가능한 유형(observable types) 중 하나에 속합니다. 관찰 가능한 요청 유형이 주어지면, 보상과 스칼라 크기(scalar size)는 모두 무작위이며, 실현된 크기는 유형별로 고정된 자원 소비 벡터(resource-consumption vector)를 스케일링합니다. 이 모델은 결정론적 유체 완화(deterministic fluid relaxation)가 퇴화(degenerate)되는 것을 허용합니다. 우리는 가산 후회(additive regret)가 활성 수락 임계값(active acceptance cutoffs) 근처에 가치 대비 크기 비율(value-to-size ratios)이 위치하는 요청들의 크기 가중 질량(size-weighted mass)에 의해 결정됨을 보여줍니다. 우리는 이 양을 활성 가중 질량 지수(active weighted-mass exponent) $p$를 통해 공식화합니다. $p > 1$일 때, 이 임계값 질량(cutoff mass)은 희박하며, 문제는 진정으로 어렵습니다. 즉, 모든 온라인 정책(online policy)은 최소한 $T^{1/2 - 1/(2p)}$ 차수의 후회를 겪어야 하며, 이는 모든 $p > 1$에 대해 성립합니다. 샘플 경로 주변부 정책(sample-path marginal policy)은 다항 로그(polylogarithmic) 인자 차이를 제외하고 이 하한(lower bound)을 충족합니다. 또한 $p = 1$이 되어 임계값 근처에서 질량이 선형적으로 증가할 때, 이 정책은 $O((\log T)^2)$의 후회를 달성합니다. 예를 들어, 크기와 가치 대비 크기 비율이 독립적이고 균등 분포(uniformly distributed)를 따른다면 $p = 1$이며, 반대로 크기와 보상이 독립적이고 균등 분포를 따른다면 $p = 2$입니다. 따라서 이 정책은 어떠한 유체 비퇴화(fluid non-degeneracy) 가정 없이도, 원시 퇴화(primal degeneracy)와 쌍대 비유일성(dual non-uniqueness)을 모두 허용하면서 이 정규성 클래스(regularity class) 전체에서 $o(\sqrt{T})$의 후회를 달성합니다.

Insights

연속적 무작위 소비를 동반한 온라인 자원 할당: 퇴화(Degeneracy) 상황에서의 후회(Regret)

요약

핵심 포인트

댓글

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달