arXiv논문2026. 06. 24. 11:10

학습을 통한 트리거링: Large Hadron Collider에서의 강화학습 (Reinforcement Learning)

요약

Large Hadron Collider(LHC)의 실시간 이벤트 필터링을 최적화하기 위해 강화학습(RL)을 적용한 연구입니다. GFPO 알고리즘을 활용해 변화하는 환경에서도 목표 배경 비율을 유지하며 신호 효율을 극대화하는 트리거 임계값 조정 방식을 제안합니다.

핵심 포인트

LHC의 실시간 트리거링을 순차적 의사결정 문제로 정의
GFPO 기반의 온라인 임계값 조정 에이전트 도입
실제 충돌 데이터 시뮬레이션에서 신호 효율 및 허용 오차 범위 개선 확인
LHC 충돌 데이터에 RL 기반 트리거 제어를 적용한 첫 사례

Large Hadron Collider와 같은 고처리량 과학 시설은 대역폭, 지연 시간(latency), 저장 공간에 대한 엄격한 제약 조건 하에서 실시간 이벤트 필터링( extit{triggering})에 의존합니다. 실제로 트리거 메뉴(trigger menus)는 대부분 정적이며 수동으로 조정되는데, 검출기 상태, 파일업(pileup), 배경 구성(background composition)이 시간이 지남에 따라 변함에 따라 최적의 상태가 아닐 수 있습니다. 우리는 온라인 임계값 조정(online threshold tuning)을 순차적 의사결정 문제(sequential decision-making problem)로 설정합니다. 강화학습 (Reinforcement Learning, RL) 에이전트는 최근 비율 및 신호 민감 특징(signal-sensitive features)의 스트리밍 요약 정보를 입력받아, 허용 오차 범위 내에서 목표 배경 비율(target background rate)을 추적하는 동시에 신호 효율(signal efficiency)을 극대화하도록 트리거 임계값을 업데이트합니다. 우리는 Group-Filtered Policy Optimization (GFPO)을 스트리밍 제어에 맞게 조정하고, 훈련 중에 배경 비율의 실행 가능성(feasibility)을 강제하는 두 가지 변형(GFPO-F, GFPO-FR)을 도입합니다. 실제 충돌기 작동을 모사하는 벤치마크에서, 우리는 두 가지 대표적인 트리거를 연구합니다: 파일업 변화에 민감한 총 횡에너지 ($H_{T}$) 트리거, 그리고 희귀하거나 비표준적인 시그니처를 위한 재구성 손실(reconstruction loss) 기반의 이상 탐지 (Anomaly-Detection, AD) 트리거입니다. Monte Carlo 스트림에서 우리 에이전트는 허용 오차 범위 내 시간 간격의 비율을 $H_T$의 경우 48%, AD의 경우 28% 증가시켰으며, 해당 허용 범위 내 간격에서 신호 효율의 누적 이득을 최대 2% 달성했습니다. 시뮬레이션에서 extit{실제} 충돌 데이터(CMS Run 283408)로 전이했을 때, 동일한 에이전트는 미세 조정(fine-tuning) 없이도 베이스라인 대비 $H_T$에서 56%, AD에서 28%의 허용 오차 범위 내 개선을 달성했으며, 두 트리거 모두에서 추가적인 신호 효율 이득을 얻었습니다. 우리가 알기로는, 이것이 실제 Large Hadron Collider 충돌 데이터에서 RL 기반 트리거 제어를 보여준 extit{첫 번째} 사례입니다. 코드는 https://github.com/Zixind/GFPO_LHC 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

학습을 통한 트리거링: Large Hadron Collider에서의 강화학습 (Reinforcement Learning)

요약

핵심 포인트

댓글