본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 13:44

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

요약

궤도 데이터 센터(ODC)에서 LLM 학습 시 발생하는 열 간섭 문제를 해결하기 위한 연구를 소개합니다. 열 인지형 이질성 테제를 바탕으로 워크로드를 최적의 냉각 유닛으로 이동시키는 TLB 프레임워크를 제안합니다.

핵심 포인트

  • 궤도 데이터 센터의 고밀도 배치로 인한 열-유체 및 열-복사 간섭 문제 발생
  • 열 스로틀링 및 하드웨어 수명 단축을 방지하기 위한 열 인지형 관리 필요성
  • 열 부하 분산(TLB) 프레임워크를 통한 LLM 워크로드의 동적 마이그레이션
  • TLB 도입 시 모델 플롭스 이용률(MFU) 회복 및 하드웨어 수명 연장 가능

지상에서의 AI 학습은 지속 불가능한 에너지 및 물 위기에 직면해 있으며, 이로 인해 궤도 데이터 센터 (Orbital Data Centers, ODCs)가 "운영 탄소 제로"의 대안으로 부상하고 있습니다. 그러나 분산형 대규모 언어 모델 (Large Language Model, LLM) 학습에 요구되는 10μs 미만의 통신 지연 시간은 ODC를 극한의 물리적 밀도로 몰아넣으며, 이는 심각한 "근접-열 역설 (Proximity-Thermal Paradox)"을 유발합니다. 이러한 고밀도 시스템이 단일 구조물 (Monolithic Structures) 또는 근접 군집 (Proximity Swarms)으로 확장됨에 따라, 열-유체 간섭 (thermal-fluid crosstalk, 공유 냉각 루프 내의 열 트랩) 및 열-복사 간섭 (thermal-radiative crosstalk, 심우주 냉각 라디에이터를 차단하는 상호 가열) 문제를 겪게 됩니다. 이를 완화하지 않고 방치할 경우, 지속적인 열 정체는 학습 처리량 (throughput)을 저하시키는 심각한 열 스로틀링 (thermal throttling)을 유발할 뿐만 아니라, 심각한 열 피로 (thermal fatigue)를 유도하여 하드웨어 수명을 급격히 단축시키고 조기 우주 전자 폐기물 (e-waste)을 생성합니다. 궤도 AI를 진정으로 지속 가능하게 만들기 위해, 본 포지션 페이퍼 (position paper)는 전통적인 균등 부하 공유 방식에 이의를 제기합니다. 우리는 공간적 냉각 편차를 주요 자원 관리 차원으로 취급하는 열 인지형 이질성 테제 (Thermal-Aware Heterogeneity Thesis)를 제안합니다. 이를 바탕으로, 우리는 즉각적인 유체 온도 또는 흡수된 복사량을 기반으로 LLM 워크로드를 사용 가능한 가장 차가운 유닛으로 동적으로 마이그레이션하는 소프트웨어 프레임워크인 열 부하 분산 (Thermal-Load Balancing, TLB)을 도입합니다. 우리의 분석은 TLB가 열 병목 현상을 해결하여 모델 플롭스 이용률 (Model Flops Utilization, MFU)을 회복하는 동시에 물리적 열 스트레스를 감소시킨다는 것을 입증합니다. 로켓 발사의 막대한 내재 탄소 (embodied carbon)를 상쇄하기 위해서는 궤도 하드웨어의 운영 수명을 연장하는 것이 매우 중요하며, 이는 전자 폐기물을 가속화하지 않고 궤도 AI를 확장하기 위한 필수적인 경로를 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0