OlmoEarth v1.1: 더 효율적인 모델 제품군

우리는 2025년 11월에 OlmoEarth (v1)를 출시했습니다. 그 이후로 파트너들은 망그로브 변화 추적부터 산림 손실의 원인 분류, 그리고 며칠 만에 국가 규모의 작물 유형 지도를 제작하는 것에 이르기까지 광범위한 작업에 이를 적용해 왔으며, 배포 규모를 국가, 대륙 및 전 지구적 영역으로 확장해 왔습니다. 매 출시마다 우리는 사람과 지구를 보호하기 위해 노력하는 조직과 커뮤니티에 최첨단 AI를 제공한다는 우리의 미션에 한 걸음 더 다가서고 있습니다.

OlmoEarth가 수만에서 수십만 평방킬로미터에 걸쳐 예측을 수행하기 위해 위성 이미지 (satellite imagery)를 처리할 때, 효율성은 무엇이 가능한지를 결정짓는 핵심 요소입니다. 데이터 내보내기 (data export), 전처리 (preprocessing), 추론 (inference), 후처리 (post-processing)에 이르는 OlmoEarth 실행의 전체 수명 주기 동안, 연산 (compute) 비용이 단연 가장 높습니다. 더 효율적인 모델은 우리가 OlmoEarth 플랫폼에서 더 많은 파트너를 지원할 수 있음을 의미하며, OlmoEarth를 자체적으로 실행하는 누구라도 이 기술을 더 빠르고 낮은 비용으로 활용할 수 있음을 의미합니다.

이것이 바로 우리가 OlmoEarth v1.1을 구축한 이유입니다. 이는 우리가 파트너들과 함께 구축한 연구 벤치마크 (research benchmarks) 및 작업들의 혼합 구성에서 OlmoEarth v1의 성능을 유지하면서도 연산 비용을 최대 3배까지 절감하는 새로운 모델 제품군입니다.

OlmoEarth 모델은 오늘날 머신러닝 (machine learning)에서 지배적인 아키텍처 중 하나인 트랜스포머 (transformer) 기반 모델입니다. 원격 탐사 (remote sensing) 데이터를 처리하기 위해, 우리는 먼저 이를 모델이 흡수할 수 있는 토큰 (tokens) 시퀀스로 변환합니다.

트랜스포머 기반 모델의 효율성을 제어하는 두 가지 중요한 레버는 모델 크기 (model size) (사용자가 자신의 연산 예산에 맞는 크기를 선택할 수 있도록 우리가 모델 제품군을 출시하는 이유입니다)와 **토큰 시퀀스 길이 (token sequence length)**입니다. 연산 비용은 토큰 시퀀스 길이에 따라 이차 함수적으로 (quadratically) 증가하므로, 아주 작은 감소만으로도 모델 실행 비용을 의미 있게 절감할 수 있습니다.

MACs(Multiply-Accumulate Operations, 곱셈-누산 연산)는 모델의 1회 순전파 (forward pass)에 필요한 계산량을 추정합니다. MACs가 낮을수록 일반적으로 더 저렴하고 빠른 추론 (inference)이 가능함을 의미합니다. y축은 평균 순위 (average rank)가 낮을수록 더 좋기 때문에 반전되어 있습니다. 레이블은 모델 제품군 (model family)과 크기를 나타냅니다. 그래프에 표시된 모든 지점은 붙여넣은 MAC/순위 값을 사용합니다.

이는 트랜스포머 (transformer) 기반 원격 탐사 (remote sensing) 모델에 중요한 질문을 던집니다: 토큰 (token)은 무엇을 나타내야 하는가?

우리가 처리하는 흔한 모달리티 (modality)인 Sentinel-2 영상을 예로 들어보겠습니다. Sentinel-2 입력은 높이와 너비(위도 및 경도 픽셀을 나타내는 H, W), 시간 차원 T, 그리고 12개의 Sentinel-2 채널을 가진 텐서([H, W, T, D=12])가 될 것입니다.

현재 우리는 데이터를 *해상도 기반 패치 (resolution-based patches)*로 나눕니다. 구체적으로, 이는 특정 공간 패치 크기 $p$를 선택하고 전체 Sentinel-2 영상을 $p imes p$ 크기의 패치로 분할함을 의미합니다:

각 패치에 대해, 해상도당 타임스텝당 하나의 토큰을 생성합니다. 따라서 2개의 타임스텝을 가진 Sentinel-2 입력은 패치당 6개의 토큰(2개 타임스텝 $ imes$ 3개 해상도: 10m, 20m, 60m)을 생성합니다.

결과적으로, $[H, W, T, D=12]$ 크기의 Sentinel-2 입력은 $H/p imes W/p imes T imes 3$개의 토큰을 생성하게 됩니다.

해상도마다 고유한 토큰을 사용하는 것은 Sentinel-2 데이터를 처리할 때 흔히 쓰이는 기술입니다. Galileo와 SatMAE 모두 이 방식을 채택하고 있으며, SatMAE는 이 방식을 사용할 때 훨씬 더 나은 결과를 보여줍니다. 하지만 이것이 보편적인 것은 아닙니다. CROMA는 해상도와 관계없이 모든 밴드 (band)에 대해 단일 토큰만을 사용하는 모델입니다. 토큰 수는 곱셈적으로 누적되기 때문에, 해상도를 하나의 토큰으로 통합하면 토큰 수가 3배 적어지며, 사전 학습 (pretraining), 미세 조정 (fine-tuning), 그리고 추론 (inference) 전반에 걸쳐 상당한 비용 절감이 가능합니다.

단순하게 토큰을 이런 방식으로 결합하면 m-eurosat kNN(원격 탐사 모델의 일반적인 벤치마크 작업)에서 10 ppt 하락을 포함하여 상당한 성능 저하가 발생합니다. 우리는 Sentinel-2 밴드를 서로 다른 토큰으로 분리하는 것이 OlmoEarth가 중요한 밴드 간 관계 (cross-band relationships)를 모델링하는 데 더 용이하게 만든다는 가설을 세우고 있습니다.

성능에 영향을 주지 않으면서 토큰을 병합 (Merging tokens)하기 위해서는 사전 학습 (pre-training) 체계를 수정해야 했습니다. 이러한 변경 사항에 대해서는 논문에서 자세히 설명합니다.

그 결과, 더 적은 자원으로 더 많은 일을 수행하는 모델 제품군이 탄생했습니다. 모든 크기에서 OlmoEarth v1.1은 OlmoEarth v1보다 최대 3배 저렴하게 실행되므로, OlmoEarth를 운영하는 모든 팀이 행성 규모 (planet-scale)의 지도를 빈번하게 갱신하는 비용을 더 감당하기 쉽게 만들어 줍니다. 만약 기존 OlmoEarth 제품군의 모델을 사용 중이라면, OlmoEarth v1.1을 사용해 보십시오. OlmoEarth v1과 유사한 성능을 제공하면서도 연산량 (compute)은 3분의 1만 필요하지만, 일부 성능 저하 (regressions)가 관찰되기도 했습니다 (자세한 내용은 기술 보고서를 참조하십시오). 만약 귀하의 작업에 적합하다면, 미세 조정 (fine-tuning) 및 추론 (inference) 과정에서 상당한 속도 향상을 경험할 수 있을 것입니다.

사전 학습된 원격 탐사 (remote sensing) 모델들은 자유도 (degrees of freedom)가 매우 높아 연구하기가 어렵습니다. 성능이 변화할 때, 그것이 아키텍처 (architecture) 때문인지, 데이터셋 (dataset) 때문인지, 아니면 사전 학습 알고리즘 (pre-training algorithm) 때문인지 파악하기 어렵기 때문입니다.

우리는 OlmoEarth v1.1을 OlmoEarth v1과 동일한 데이터셋으로 학습시켰으므로, 두 모델 간의 차이는 방법론적 변화의 효과만을 분리하여 보여줍니다. 우리는 이것이 원격 탐사용 모델을 사전 학습할 때 과학적 원리에 대한 이해를 높이는 데 기여하기를 바랍니다.

Base, Tiny, Nano 모델의 가중치 (weights)를 포함하여 OlmoEarth v1.1의 가중치와 학습 코드를 확인해 보십시오.

OlmoEarth v1.1: 더 효율적인 모델 제품군

요약

핵심 포인트

댓글