OlmoEarth v1.1, 토큰 통합으로 위성 이미지 분석 비용 3배 절감

OlmoEarth(위성 이미지 분석 AI)가 연산 비용을 최대 3배 절감한 v1.1 모델 패밀리를 공개했다. 2025년 11월 출시된 v1 이후, 이 모델은 망그로브 변화 추적, 산림 손실 원인 분류, 국가 단위 작물 지도 제작 등 글로벌 규모의 환경 모니터링 작업에 적용되어 왔다. 위성 이미지 분석의 전체 라이프사이클인 데이터 내보내기, 전처리, 추론, 후처리 과정에서 컴퓨팅 자원 소모는 가장 큰 비용 부담 요소로 작용한다. 따라서 모델의 효율성 개선은 플랫폼 지원 가능 파트너 수를 늘리고, 개별 사용자가 더 낮은 비용으로 기술을 도입하게 만드는 핵심 동인이 된다.

트랜스포머(Transformer) 아키텍처의 연산 특성을 최적화한 것이 이번 v1.1 업데이트의 핵심이다. 트랜스포머 기반 모델에서 연산 비용은 토큰 시퀀스 길이에 따라 제곱으로 증가한다. 연구팀은 Sentinel-2(유럽우주국 위성 데이터) 이미지의 해상도별 토큰 생성 방식을 변경하여 시퀀스 길이를 획기적으로 줄였다. 기존 v1이 해상도별로 별도의 토큰을 생성했다면, v1.1은 이를 하나의 토큰으로 통합하는 방식을 채택했다. 이 과정에서 발생할 수 있는 성능 저하를 막기 위해 사전 학습(Pre-training) 레지먼트를 수정하여 v1 수준의 성능을 유지하면서도 연산 효율을 확보했다.

OlmoEarth v1.1의 모델 라인업과 3배의 비용 절감

연산 비용의 획기적인 절감에서 개발팀이 공개한 수치의 차이가 갈린다. 위성 이미지 분석의 전체 생애주기인 데이터 추출과 전처리, 추론, 후처리를 거치는 과정에서 컴퓨팅 자원 소모는 가장 지배적인 비용 항목으로 관찰된다. OlmoEarth v1.1은 이러한 비용 구조를 개선하여 기존 v1 대비 연산 비용을 최대 3배까지 낮추는 성과를 냈다. 특히 사용자가 자신의 컴퓨팅 예산에 맞춰 선택할 수 있도록 Base, Tiny, Nano라는 세 가지 모델 패밀리 구성을 제안한다. 이는 모델 크기에 따른 선택지를 제공함으로써 대규모 지역의 지도 갱신이나 빈번한 분석 작업이 필요한 현장의 진입 장벽을 낮추는 실무적 장치가 된다. 연산 비용의 감소는 더 많은 파트너가 플랫폼을 활용하고 개별 개발자가 더 빠르게 기술을 적용할 수 있는 환경을 조성한다.

토큰 시퀀스 길이를 최적화한 점이 비용 절감의 핵심이다. 트랜스포머 구조에서 연산 비용은 토큰 시퀀스 길이에 따라 제곱으로 증가하므로, 작은 길이의 감소만으로도 상당한 비용 절감이 가능하다. 기존 v1에서는 Sentinel-2(유럽우주국에서 운영하는 위성) 이미지의 해상도별로 각각 다른 토큰을 생성했다. 10m, 20m, 60m의 세 가지 해상도를 개별 토큰으로 처리했기에 하나의 타임스텝당 3개의 토큰이 발생했다. 반면 v1.1은 이 해상도들을 하나의 토큰으로 통합하여 토큰 수를 3분의 1로 줄였다. 토큰 수의 감소는 사전 학습과 미세 조정, 추론 단계 전반에서 연산량을 기하급수적으로 줄이는 결과로 이어진다. 단순히 토큰을 합치면 성능 저하가 발생하지만, 연구팀은 사전 학습 레지먼(Pre-training regimen, 모델 학습 설정 및 절차)을 수정하여 성능 하락 없이 효율성을 확보했다.

방법론적 변화를 검증하기 위해 v1과 동일한 데이터셋을 사용하여 학습했다는 사실이 이번 업데이트에서 주목할 점이다. 원격 탐사 모델은 아키텍처, 데이터셋, 학습 알고리즘 등 자유도가 매우 높아 성능 변화의 원인을 정확히 짚어내기 어렵다. 데이터셋을 고정함으로써 모델 크기와 토큰 통합이라는 방법론적 변화가 실제 성능과 비용에 미치는 영향만을 격리해 검증할 수 있었다. 이러한 접근은 원격 탐사 모델의 사전 학습 원리를 이해하는 과학적 근거를 제공하며, 실무자에게는 하드웨어 제약 조건에 따른 최적의 모델 선택 기준을 제시한다. 연구팀은 이를 통해 모델의 크기가 작아지더라도 특정 작업에서는 v1과 유사한 성능을 유지하면서도 추론 속도를 비약적으로 높일 수 있음을 관찰했다. 상세한 가중치와 학습 코드는 OlmoEarth v1.1 weights and training code에서 확인할 수 있다.

[H, W, T, D=12] 텐서에서 토큰 하나로: 효율화의 메커니즘

Sentinel-2 데이터는 [H, W, T, D=12] 텐서 구조를 가진다. 여기서 H와 W는 위도와 경도 픽셀을, T는 시간축을, D=12는 12개의 채널을 의미한다. 기존 OlmoEarth v1에서는 이를 처리하기 위해 해상도별로 패치를 나누어 토큰을 생성하는 방식을 사용했다. 구체적으로는 특정 공간 패치 크기 p x p를 설정해 전체 이미지를 분할한 뒤, 10m, 20m, 60m의 세 가지 해상도마다 각각 토큰을 할당했다. 이 과정에서 하나의 타임스텝당 총 3개의 토큰이 발생하며, 전체 토큰 수는 H/p x W/p x T x 3으로 계산되어 시퀀스 길이를 빠르게 늘리는 요인이 된다.

세 가지 해상도의 토큰을 하나로 통합한 것이 OlmoEarth v1.1에서 도입된 핵심 변화다. 타임스텝당 3개였던 토큰을 1개로 줄이면서 전체 시퀀스 길이를 3분의 1 수준으로 낮췄다. 트랜스포머(Transformer, 어텐션 메커니즘 기반의 딥러닝 구조) 모델의 연산 비용은 토큰 시퀀스 길이에 따라 이차함수 형태로 증가하는 특성이 있다. 따라서 토큰 수의 감소는 단순한 수치 감소를 넘어 사전 학습과 미세 조정, 그리고 실제 추론 단계에서 발생하는 컴퓨팅 비용의 선형적인 감소로 이어진다. 이는 모델의 forward pass에 필요한 MACs(Multiply-Accumulate operations, 곱셈-누산 연산) 수치를 낮추어 더 빠른 추론을 가능하게 한다.

성능 저하라는 리스크는 단순히 토큰을 합치는 방식이 동반하는 문제다. 실제로 단순 통합을 적용했을 때 m-eurosat kNN(원격 탐사 모델의 일반적 벤치마크 작업)에서 10ppt의 성능 하락이 관찰되었다. 연구팀은 해상도별로 토큰을 분리하는 것이 Sentinel-2의 서로 다른 밴드 간의 복잡한 관계를 모델링하는 데 더 유리하다는 가설을 세웠다. 이를 해결하고 성능을 유지하기 위해 v1.1에서는 사전 학습 레지먼(Pre-training regimen, 모델 학습을 위한 체계적인 설정과 절차)을 수정하는 방식을 제안했다. 이를 통해 토큰 수를 줄이면서도 모델이 학습해야 할 핵심 정보의 손실을 막았다.

실무적인 비용 절감으로 직결되는 것은 이러한 구조적 효율화다. v1.1은 v1과 유사한 성능을 유지하면서도 연산 비용을 최대 3배까지 낮춘 것이 확인된다. 이는 전 지구적 규모의 지도를 빈번하게 갱신해야 하는 환경에서 추론 속도를 높이고 인프라 비용을 줄이는 실질적인 이점으로 작용한다. 개발자가 체감하는 가장 큰 변화는 미세 조정과 추론 단계에서의 속도 향상이며, 이는 한정된 컴퓨팅 자원으로 더 넓은 지역에 대한 분석을 가능하게 한다. 결과적으로 더 많은 파트너가 플랫폼을 활용하고 개별 운영자가 더 낮은 비용으로 기술을 도입할 수 있는 기반이 된다.

Galileo·SatMAE와 CROMA 사이의 성능 트레이드오프

해상도별로 고유한 토큰을 할당하는 방식을 사용하는 것은 Galileo와 SatMAE(Self-supervised Masked Autoencoder for Satellite Imagery)의 특징이다. Sentinel-2 위성 이미지의 [H, W, T, D=12] 텐서 입력에서 10m, 20m, 60m의 세 가지 해상도 데이터를 각각 별도의 토큰으로 분리해 처리하는 구조다. 구체적으로 하나의 패치당 2개의 타임스텝이 있다면 총 6개의 토큰이 생성되며, 전체 토큰 수는 H/p x W/p x T x 3으로 계산되어 모델에 입력된다. SatMAE의 경우 이러한 분리 방식이 성능 우위로 이어진다는 점이 관찰되었다. 반면 CROMA(Cross-modal Remote sensing Model)는 해상도와 관계없이 모든 밴드를 단일 토큰으로 통합해 처리하는 전략을 취한다. 트랜스포머 기반 모델에서 연산 비용은 토큰 시퀀스 길이에 따라 제곱으로 증가하는 특성이 있다. 따라서 해상도를 단일 토큰으로 통합하면 토큰 수를 3분의 1로 줄일 수 있으며, 이는 사전 학습부터 미세 조정, 추론에 이르는 전체 라이프사이클에서 실질적인 컴퓨팅 자원 절감으로 이어진다.

심각한 성능 저하를 야기한 것은 토큰을 단순하게 통합하는 시도였다. m-eurosat kNN(k-Nearest Neighbors) 벤치마크 테스트 결과, 단순 통합 시 성능이 10 ppt 하락하는 현상이 발생했다. 이는 Sentinel-2의 서로 다른 밴드들을 개별 토큰으로 분리했을 때 모델이 밴드 간의 복잡한 상관관계를 더 효과적으로 모델링할 수 있기 때문으로 분석된다. 즉, 해상도별 특성을 하나의 토큰에 압축해 넣으려는 시도는 모델이 학습해야 할 핵심적인 공간적, 분광적 정보를 손실시키는 결과를 초래했다. 개발자 입장에서 연산 효율을 위해 토큰 수를 줄이는 선택은 모델의 예측 정확도를 직접적으로 훼손하는 전형적인 트레이드오프 상황이었으며, 이는 단순한 구조적 통합만으로는 해결할 수 없는 성능의 한계점으로 작용했다.

단순한 토큰 통합이 아닌 사전 학습 레지먼트(Pre-training Regimen, 모델 학습 절차 및 설정)의 수정을 제안한 것이 OlmoEarth v1.1의 극복 방식이다. 개발팀은 v1과 동일한 데이터셋을 사용하여 학습함으로써, 성능 변화의 원인이 아키텍처의 단순화인지 아니면 학습 알고리즘의 영향인지를 명확히 분리해 분석하는 실험적 접근을 취했다. 수정된 레지먼트를 적용한 결과, v1.1은 단일 토큰 구조를 유지하면서도 v1 수준의 성능을 회복하는 성과를 거두었다. 이는 연산 비용을 최대 3배까지 낮추면서도 벤치마크 성능의 급격한 추락을 방어한 결과다. 결국 실무적인 비용 절감은 단순한 토큰 삭제가 아니라, 변경된 구조에 최적화된 학습 전략의 정교한 재설계를 통해 달성될 수 있음을 입증하며, 이는 향후 위성 이미지 분석 모델의 효율화 방향에 중요한 근거를 제시한다.

추론 비용 감소가 가져올 '행성 규모' 지도 갱신의 가속화

MACs(Multiply-Accumulate operations, 곱셈-누산 연산)의 감소로 인한 추론 속도의 향상이 개발자가 체감하는 가장 직접적인 변화다. 트랜스포머 기반 모델의 연산 비용은 토큰 시퀀스 길이에 따라 제곱으로 증가하는 특성이 있으며, 이는 수만 장의 위성 이미지를 처리해야 하는 실무 환경에서 하드웨어 비용을 급격히 상승시키는 주범이 된다. OlmoEarth v1.1은 토큰 통합 방식을 통해 이 연산량을 획기적으로 줄였으며, 그 결과 추론 단계뿐만 아니라 모델을 특정 도메인에 맞게 최적화하는 미세 조정(Fine-tuning) 과정에서도 유의미한 속도 향상이 관찰된다. 이는 단순히 실행 시간이 짧아지는 것을 넘어, 동일한 컴퓨팅 예산 내에서 처리할 수 있는 이미지 패치의 수가 물리적으로 증가하며 분석의 해상도와 범위를 동시에 넓힐 수 있음을 의미한다.

국가나 대륙, 나아가 전 지구 단위의 지도 갱신(Map Refresh) 주기와 비용 구조를 근본적으로 바꾸는 것이 이러한 효율성 개선의 결과다. 기존의 위성 이미지 분석은 막대한 컴퓨팅 비용 탓에 특정 시점의 데이터를 분석하여 결과를 도출하는 연구 수준의 일회성 작업에 머무는 경우가 많았다. 하지만 추론 비용이 최대 3배까지 절감되면서, 수십만 제곱킬로미터에 달하는 광범위한 지역을 더 자주 업데이트하는 실시간 글로벌 모니터링 서비스로의 전환이 가능해진다. 잦은 갱신이 가능해지면 망그로브 변화 추적이나 산림 손실 원인 분류와 같이 시간에 따라 빠르게 변하는 지표를 훨씬 정밀하게 포착할 수 있으며, 이는 데이터의 신선도가 곧 서비스의 품질이 되는 실무 환경에서 결정적인 차이를 만든다.

OlmoEarth 플랫폼의 확장성 확보라는 실질적인 가치로 이어지는 것은 컴퓨팅 진입 장벽의 하락이다. 고가의 GPU 인프라를 직접 구축하기 어려운 중소 규모의 파트너사나 지역 환경 단체들도 고성능 위성 분석 모델을 실제 운영 환경에 도입할 수 있는 경제적 토대가 마련된다. 연구실 수준에서 증명된 최신 분석 기법이 실제 현장의 서비스 코드로 빠르게 이식될 수 있는 기술적 파이프라인이 구축된 셈이다. 모델의 성능을 유지하면서 자원 소모를 3분의 1로 줄인 이번 업데이트는 위성 데이터 분석의 경제적 임계점을 낮추어, 더 많은 조직이 행성 규모의 환경 보호 작업에 AI를 실무적으로 활용하게 만드는 핵심적인 동력이 될 것으로 관찰된다.

한국형 정밀 농업 및 재난 모니터링으로의 이식 가능성

고해상도 위성 데이터를 처리하는 과정에서 막대한 컴퓨팅 비용을 지불하는 곳이 국내 공공 기관이 운영하는 농작물 지도 제작이나 산림 훼손 감시 시스템이다. 위성 데이터의 전처리부터 추론, 그리고 후처리에 이르는 전체 파이프라인에서 연산 비용은 프로젝트의 지속 가능성을 결정짓는 가장 큰 병목 구간으로 관찰된다. 특히 수만 제곱킬로미터에 달하는 광범위한 지역을 대상으로 분석을 수행할 때, 데이터 추출과 전처리에 소요되는 시간과 비용은 예산 제약이 심한 공공 프로젝트에 실질적인 진입 장벽이 된다. 이러한 환경에서 추론 비용을 최대 3배까지 절감한 OlmoEarth v1.1의 효율성은 단순한 수치적 향상을 넘어, 실제 서비스 배포 가능성을 결정짓는 핵심적인 변수로 작용한다.

보유한 인프라 규모에 맞는 모델의 선택지가 실무 개발자가 코드에 가장 먼저 반영해야 할 지점이다. OlmoEarth v1.1은 Base, Tiny, Nano라는 세 가지 모델 크기를 제공하여 사용자가 가진 컴퓨팅 자원 예산에 맞춰 최적의 모델을 선택할 수 있게 한다. 대규모 GPU 클러스터를 운용하는 환경에서는 Base 모델을 통해 분석 정밀도를 극대화하고, 상대적으로 자원이 제한된 서버나 엣지 컴퓨팅 환경에서는 Tiny 또는 Nano 모델을 배치하여 추론 속도를 확보하는 전략이 가능하다. 6개월 뒤 실제 운영 환경에 적용한다면, 설정 파일의 모델 경로 하나만으로 인프라 상황에 맞춰 모델 체급을 조절하는 유연한 파이프라인을 구축할 수 있다. 이는 단일 모델을 모든 환경에 강제로 맞추던 기존 방식에서 벗어나, 하드웨어 제약 조건에 따라 코드 레벨에서 모델 크기를 유연하게 교체하며 최적의 비용 효율 지점을 찾을 수 있는 구조적 이점을 제공한다.

실제 배포 및 운영 비용이 학술적 벤치마크의 소수점 단위 정확도보다 실무 현장에서 더 중요하게 다뤄지는 요소다. 정밀 농업이나 재난 모니터링과 같은 환경 프로젝트는 주기적인 맵 리프레시(Map Refresh, 지도 최신화)를 통해 최신 상태를 유지해야 하며, 이는 곧 빈번한 모델 추론과 막대한 연산 비용으로 이어진다. OlmoEarth v1.1이 제안하는 토큰 통합 방식은 성능 저하를 최소화하면서도 연산량을 획기적으로 줄였기에, 예산 제약이 큰 국내 공공 및 환경 프로젝트에 즉시 적용 가능한 현실적인 대안이 된다. 연구 단계의 모델이 논문에 머물지 않고 실제 행정 서비스나 환경 감시 시스템의 운영 코드로 이식되기 위해서는, 이처럼 배포 비용이 최적화된 모델의 도입이 필수적이다.