본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 17:12

ARGUS: 정책 적응형 광고 거버넌스 및 적대적 판정자를 통한 진화 강화 학습

요약

ARGUS는 온라인 광고 거버넌스가 직면하는 규제 정책의 비정상성 문제를 해결하기 위해 제안된 시스템입니다. 이 시스템은 다중 에이전트 적대적 판정자(multi-agent adversarial umpiring)를 활용한 진화 강화 학습을 가능하게 합니다. ARGUS는 새로운 정책 데이터가 희소할 때 초기 인식, 적대적 레이블 정정 등의 3단계 프레임워크를 사용하여 효과적으로 작동합니다.

핵심 포인트

  • 온라인 광고 거버넌스는 규제 정책의 비정상성(non-stationary nature)으로 인해 어려움을 겪는다.
  • ARGUS는 다중 에이전트 적대적 판정자를 이용한 진화 강화 학습 시스템이다.
  • 새로운 정책 데이터가 부족할 때, ARGUS는 3단계 프레임워크를 통해 문제를 해결한다 (정책 시딩 및 적대적 레이블 정정 포함).
  • 이는 기존의 광고 거버넌스 모델이 직면하는 레이블 불일치와 추론 모호성 문제를 다룬다.

온라인 광고 거버넌스는 규제 정책의 비정상성 (non-stationary nature) 으로 인해 심각한 도전을 직면하고 있습니다. 여기서 새로운 명령 (예: 교육 제한 또는 미적 불안에 대한 제한) 이 역사적 데이터셋에서 중대한 레이블 불일치와 추론 모호성을 생성하기 때문입니다. 본 논문에서는 다중 에이전트 적대적 판정자 (multi-agent adversarial umpiring) 를 통한 진화 강화 학습을 가능하게 하는 정책 적응형 거버넌스 시스템인 ARGUS 를 제안합니다. ARGUS 는 새로운 정책 데이터의 희소성을 해결하기 위해 3 단계 프레임워크를 사용합니다: (1) 정책 시딩 (Policy Seeding) 을 통한 초기 인식; (2) 적대적 레이블 정정 (Adversarial Label Rectification), 이는 낡은 레이블과 새로운 명령 사이의 갈등을 해결하기 위해

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0