HeteroViT: 과학용 검출기의 분산 실시간 데이터 축소를 위해 공동 설계된 다목적 단일 레이어 Vision Transformer 컨셉
요약
HeteroViT는 차세대 X-선 검출기의 방대한 데이터를 실시간으로 축소하기 위해 설계된 단일 레이어 Vision Transformer 컨셉입니다. 하드웨어 공동 설계를 통해 ASIC, FPGA, GPU 파이프라인에 모델을 매핑하여 엣지 단계에서 데이터를 효율적으로 처리합니다.
핵심 포인트
- 단일 레이어 ViT를 활용한 다목적 과학 데이터 처리
- ASIC-FPGA-GPU로 이어지는 이기종 하드웨어 공동 설계
- 실시간 데이터 유지/폐기 결정을 통한 데이터 전송 비용 절감
- 지도 학습 및 자기 지도 학습을 통한 다양한 과학적 작업 수행 가능
차세대 X-선 검출기는 어떤 시스템도 경제적으로 저장하거나 처리할 수 있는 속도보다 더 빠르게 데이터를 생성합니다. SLAC의 업그레이드된 Linac Coherent Light Source인 LCLS-II는 초당 테라바이트 단위의 데이터를 생성하며, 데이터의 상당 부분이 과학적으로 유용하지 않음에도 불구하고 원시 데이터(raw-data) 전송 및 저장 비용이 지나치게 높을 것으로 예상됩니다. 이 컨셉 논문은 두 가지 주요 사항에 초점을 맞춥니다. 첫 번째는 다목적성(versatility)입니다. 의도적으로 아주 작은 단일 레이어 Vision Transformer (ViT)만으로도 서로 다른 과학적 신속 평가 작업을 수행하기에 충분합니다. 우리는 이를 매우 다른 두 가지 문제에서 입증합니다: (a) ePixUHR와 유사한 검출기 프레임을 모방하여 만든 CSPAD 데이터셋에서의 지도 학습(supervised) 기반 hit/miss/maybe 분류, 그리고 (b) 하나의 작은 백본(backbone)을 사용하여 두 가지 학습 패러다임, 두 가지 출력 유형, 두 가지 검출기 양식(modality)에 걸쳐 X-선 회절에서의 희귀 이벤트 탐지를 위한 자기 지도 학습(self-supervised) 잠재 공간(latent space) 구축입니다. 두 번째는 하드웨어 공동 설계(hardware co-design)입니다. ViT의 블록은 구조적으로 균일하기 때문에, '하나의 ASIC은 하나의 토큰이다'라는 단순한 규칙 하에 LCLS 검출기 파이프라인에 이미 존재하는 이기종 하드웨어(ASIC -> FPGA -> GPU)에 모델을 깔끔하게 매핑할 수 있습니다. 이를 통해 데이터는 각 단계에서 점진적으로 축소되며, 엣지(edge)에서 실시간으로 유지/폐기(keep/discard) 결정이 내려집니다. 이 두 가지 주장은 서로를 강화합니다. 즉, 다목적성이야말로 프런트엔드를 실리콘(silicon)으로 고정하는 것을 정당화하는 핵심 요소입니다. 재사용 가능한 프런트엔드는 많은 작업을 수행할 수 있을 때만 하드웨어로 구현할 가치가 있기 때문입니다. 우리는 이것이 초기 소프트웨어 분석을 통해 뒷받침되는 컨셉이며, 하드웨어 시연은 아님을 명시합니다. 자연스럽고 일차적인 다음 단계는 이 분산 파이프라인의 하드웨어 구현입니다. 종단 간 지연 시간 예산(end-to-end latency budget), 센서 내 임베딩(in-sensor embedding)의 ASIC 타당성, 그리고 데이터 거부(veto)에 중요한 허위 음성(false-negative) 동작에 대한 결정적인 증거를 확보하는 것이 해당 프로그램의 정의입니다. HeteroViT는 이를 향한 우리의 첫 걸음입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기