Bellman Certificates를 통한 다중 비서 문제(Multi-Secretary Problem)의 타이트한 하한(Tight Lower

본 논문은 오프라인 예언자 보상(offline prophet reward)의 기대값과 최적의 온라인 정책(online policy) 보상 사이의 차이로 정의되는 다중 비서 문제(multi-secretary problem)에서의 가법적 후회(additive regret)를 연구합니다. 기존 연구에서는 연결된 지지 집합(connected support)을 가진 유계 밀도 분포(bounded-density distributions)에 대해 (O(\log T))의 후회를, 지지 집합 간격(support gaps)이 있는 유계 밀도 분포에 대해 (O((\log T)^2))의 상한(upper bounds)을 확립했습니다. 단일 자원 모델(one-resource model)에서도 이러한 추가적인 로그 인자(logarithmic factor)가 필수적인지는 알려지지 않았습니다. 본 논문에서는 이것이 필수적임을 증명합니다. 임계 용량(critical capacity)에서의 두 분리된 균등 분포(uniform distributions)의 혼합(mixture)에 대해, 최적의 후회는 최소한 ((\log T)^2) 차수(order)로 성장합니다. 따라서 연속적 보상(continuous rewards)을 갖는 네트워크 수익 관리(network revenue management) 모델에 의해 함의되는 것들을 포함하여, 간격이 있는 유계 밀도 사례(bounded-density gapped instances)에 대한 기존의 (O((\log T)^2)) 상한은 이 가장 단순한 특수화 사례에서 타이트(tight)합니다. 동일한 프레임워크는 간격에 직면한 밀도(gap-facing densities)가 지지 집합 가장자리(support edges) 근처에서 소멸하는 간격 분포(gapped distributions)에 대해서도 일치하는 하한(lower bound)을 도출하며, 이 부수적인 결과는 부록에 제공됩니다. 증명에는 벨만 인증서(Bellman certificates)가 사용됩니다: 이는 정확한 벨만 재귀(Bellman recursion)의 완화(relaxation)에 대한 실행 가능한 해(feasible solutions)입니다. 이 프레임워크는 하한을 명시적인 인증서 구성으로 변환하고, 왜 지지 집합 간격(support gaps)이 더 큰 후회를 허용하는지를 식별합니다.

Insights

Bellman Certificates를 통한 다중 비서 문제(Multi-Secretary Problem)의 타이트한 하한(Tight Lower

요약

핵심 포인트

댓글

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴