Das multimodale KI-Modell TerraMind von IBM und ESA revolutioniert die Umweltüberwachung und Datenanalyse. | TerraMind, a multi-modal AI model by IBM and ESA, revolutionizes environmental monitoring and data analysis. |
IBM und ESA haben TerraMind veröffentlicht, um den Klimawandel vom Weltraum aus zu bekämpfen. TerraMind ist ein neues Erdbeobachtungsmodell, das von IBM und der ESA auf der Open-Source-KI-Plattform Hugging Face zur Verfügung gestellt wird. Es wurde mit TerraMesh trainiert, dem größten verfügbaren Geodatensatz, der von Forschern im Rahmen des TerraMind-Projekts erstellt wurde. Es wurde mit der Infrastruktur und dem Fachwissen des Jülich Supercomputing Center in Deutschland trainiert, wobei das IBM Forschungszentrum Zürich und das Deutsche Zentrum für Luft- und Raumfahrt (DLR) wichtige Beiträge leisteten.
TerraMind ist führend im Bereich der Geodatenmodellierung und verfügt über eine einzigartige, auf symmetrischen Transformatoren basierende Encoder-Decoder-Architektur, die für die Verarbeitung von pixel-, token- und sequenzbasierten Eingaben sowie für das Lernen modalitätsübergreifender Korrelationen ausgelegt ist. Obwohl TerraMind mit 500 Milliarden Token trainiert wurde, ist es ein kleines, leichtgewichtiges Modell, das zehnmal weniger Rechenleistung benötigt als Standardmodelle für jede Modalität. Das bedeutet, dass die Benutzer es in großem Maßstab zu geringeren Kosten einsetzen können und gleichzeitig den Gesamtenergieverbrauch während der Inferenzzeit reduzieren. „Was TerraMind für mich auszeichnet, ist seine Fähigkeit, über die einfache Verarbeitung von Erdbeobachtungsdaten mit Computer-Vision-Algorithmen hinauszugehen. Stattdessen verfügt es über ein intuitives Verständnis von Geodaten und unserem Planeten“, sagte Juan Bernabé-Moreno, Direktor von IBM Research UK und Irland und IBMs Accelerated Discovery Lead für Klima und Nachhaltigkeit. „TerraMind ist derzeit das leistungsstärkste KI-Basismodell für die Erdbeobachtung nach etablierten Community-Benchmarks“, so Bernabé-Moreno weiter. In einer ESA-Evaluierung wurde TerraMind mit 12 populären Erdbeobachtungsmodellen auf PANGAEA, einem Community-Standard-Benchmark, verglichen, um die Leistung des Modells bei realen Aufgaben wie der Landbedeckungsklassifizierung, der Erkennung von Veränderungen, der Umweltüberwachung und der Multisensor- und Multitemporalanalyse zu messen. Der Benchmark zeigte, dass TerraMind andere Modelle bei diesen Aufgaben um 8 % oder mehr übertraf. „TerraMind kombiniert Erkenntnisse aus verschiedenen Arten von Trainingsdaten, um die Genauigkeit seiner Ergebnisse zu verbessern“, sagte Simonetta Cheli, Direktorin der ESA-Erdbeobachtungsprogramme und Leiterin von ESRIN. „Die Fähigkeit, Kontextinformationen intuitiv zu integrieren und neuartige Szenarien zu generieren, ist ein entscheidender Schritt, um den Wert der ESA-Daten zu erschließen. Im Vergleich zu konkurrierenden Modellen kann sie Forschern und Unternehmen ein tieferes Verständnis der Erde vermitteln. In der Praxis müssen Forscher viele verschiedene Faktoren wie Landnutzung, Klima, Vegetation, landwirtschaftliche Aktivitäten und Standort berücksichtigen, um das Risiko von Wasserknappheit vorherzusagen. Vor TerraMind waren all diese Daten an verschiedenen Orten unter Verschluss. Durch die Zusammenführung dieser Informationen können die Nutzer das potenzielle Risiko von Wasserknappheit auf der Grundlage eines umfassenderen und genaueren Bildes der Bedingungen auf der Erde vorhersagen. Neun Millionen Datenpunkte, neun verschiedene Modalitäten Bei der Erstellung des Datensatzes haben die Forscher Daten aus allen Biomen, Landnutzungs-/Bodenbedeckungsarten und Regionen einbezogen, so dass das Modell ohne Verzerrungen für jeden Anwendungsfall überall auf der Welt gleichermaßen anwendbar ist. Der Datensatz umfasst 9 Millionen räumlich und zeitlich koordinierte Datensätze aus neun Kerndatenmodalitäten, darunter Beobachtungen von Satellitensensoren, die Geomorphologie der Erdoberfläche, für das Leben auf der Erde relevante Oberflächenmerkmale (Vegetation und Landnutzung) sowie die Grundlagen zur Beschreibung von Orten und Merkmalen (Breitengrad, Längengrad und einfache Textbeschreibungen). Aus technischer Sicht ist TerraMind sogar über den Bereich der Erdbeobachtung hinaus bahnbrechend. Es ist das erste „any-to-any“ multimodale generative KI-Modell für die Erdbeobachtung. Das bedeutet, dass es selbst zusätzliche Trainingsdaten aus anderen Modalitäten generieren kann – eine Technik, die IBM-Forscher als „Thinking-in-Modalities“ (TiM) Tuning bezeichnet haben. TiM ist ein neuartiger Ansatz für Computer-Vision-Modelle, ähnlich der Denkkette bei Sprachmodellen. Empirische Belege zeigen, dass TiM-Tuning die Modellleistung über das normale Feintuning hinaus verbessern kann. „TiM-Tuning steigert die Dateneffizienz, indem es die für das jeweilige Problem relevanten zusätzlichen Trainingsdaten selbst generiert – zum Beispiel, indem es das Modell anweist, bei der Kartierung von Gewässern über die Landbedeckung nachzudenken“. Dieser Durchbruch könnte eine bisher unerreichte Genauigkeit bei der Spezialisierung von TerraMind für bestimmte Anwendungsfälle ermöglichen“, sagt Johannes Jakubik, Wissenschaftler bei IBM Research in Zürich. Die Anwendung von KI und maschinellem Lernen auf Geodaten, einschließlich Satellitenbildern und Landnutzungsmustern, ist nicht neu. Bestehende Geodatenmodelle, wie sie von IBM und der NASA entwickelt wurden, ermöglichen es Wissenschaftlern, diese Daten sinnvoll zu nutzen und Anwendungsfälle in der hochpräzisen Landwirtschaft, bei der Bewältigung von Naturkatastrophen und in anderen Bereichen besser zu lösen. |
IBM and ESA released TerraMind to tackle climate change from space. TerraMind is a new earth-observation model that IBM and ESA have open-sourced on the Open Source AI platform Hugging Face. It was pre-trained on TerraMesh, the largest geospatial data set available, built by researchers as part of the TerraMind project. It was trained using the infrastructure and expertise of the Jülich Supercomputing Center in Germany with important input by the IBM Research center Zurich and the German Space Agency (DLR).
Geospatial model performance TerraMind has a unique symmetric transformer-based encoder-decoder architecture, which is designed to work with pixel-base, token-base, and sequence-base inputs and learn correlations across modalities. Despite being trained across 500 billion tokens, TerraMind is a small, lightweight model, using 10 times less compute than using standard models for each modality. This means users can deploy it at scale at a lower cost, while reducing the overall energy consumption at inference time. “To me, what sets TerraMind apart is its ability to go beyond simply processing earth observations with computer vision algorithms. It instead has an intuitive understanding of geospatial data and our planet,” said Juan Bernabé-Moreno, director of IBM Research UK and Ireland, and IBM’s Accelerated Discovery lead for climate and sustainability. “At present, TerraMind is the best performing AI foundation model for Earth observation according to well-established community-benchmarks,” Bernabé-Moreno added. In an ESA evaluation, TerraMind was compared against 12 popular Earth observation foundation models on PANGAEA, a community-standard benchmark, to measure the model’s performance on real-world tasks, like land cover classification, change detection, environmental monitoring and multi-sensor and multi-temporal analysis. The benchmark showed TerraMind outperformed other models on these tasks by 8% or more. “TerraMind combines insights from several modalities of training data to increase the accuracy of its outputs,” said Simonetta Cheli, director of ESA Earth Observation Programmes and Head of ESRIN. “The ability to intuitively bring in contextual information and generate unseen scenarios is a critical step in unlocking the value of ESA data. Compared to competitive models, it can uncover a deeper understanding of the Earth for researchers and businesses alike.” In practice, to predict the risk of water scarcity, researchers need to consider many different factors like land use, climate, vegetation, agricultural activities, and location. Before TerraMind, all of this data was locked away in separate places. Bringing this information together enables users to predict the potential risk of water scarcity informed by a larger, more accurate picture of conditions on Earth. Nine million data points, nine different modalities During the dataset creation, researchers included data from all biomes, land use/land cover types, and regions, allowing the model to be equally applicable to any use case across the globe, with limited bias. The dataset includes 9 million globally distributed, spatiotemporally aligned data samples across nine core data modalities – including observations made by sensors on satellites, the geomorphology of the Earth’s surface, surface characteristics that are important to life on Earth (vegetation and land use) and the basics of how to describe locations and features (latitude, longitude, and simple text descriptions). Self-tuning to create artificial data From a technical perspective, TerraMind is groundbreaking even beyond the domain of Earth observation. It is the first “any-to-any” multi-modal generative AI model for Earth observation. This means it can self-generate additional training data from other modalities — a technique IBM researchers coined “Thinking-in-Modalities” (TiM) tuning. TiM is a novel approach for computer vision models similar to chain-of-thought in language models. Empirical evidence demonstrates that TiM tuning can enhance the model performance beyond normal fine-tuning. “TiM tuning boosts data efficiency by self-generating the additional training data relevant to the problem being addressed — for example, by telling the model to “think” about land cover when mapping water bodies. This breakthrough can unlock unprecedented accuracy when specializing TerraMind for particular use cases,” said Johannes Jakubik, an IBM Research scientist based in Zurich. Building on a solid foundation Applying AI and machine learning techniques to Earth-related data, including satellites and land use patterns, isn’t new. Existing geospatial foundation models, such as those developed by IBM and NASA, enable scientists to make sense of this data — helping them better address use cases in high-precision agriculture, natural disaster management, environment monitoring (through water, heat and, drought), urban and regional planning, critical infrastructure monitoring, forestry and bio-diversity monitoring, and more. However, these existing models currently process data from sources that occasionally can’t capture the rich reality of conditions on our planet. While satellites circle the globe, providing time-lapse data on natural events, they revisit the same location every five days. For analyzing climate events over the long-term, this provides enough data to predict and review trends. When monitoring short-term events like wildfires and floods, every day counts, and researchers need the latest data to make predictions or assess risk using AI models. To solve this challenge, IBM researchers combined their technical knowledge in preparing data and building foundation models with the ESA’s valuable earth observation data and expertise in model evaluation to develop a new multi-modal AI foundation model for Earth observation. It was trained using the infrastructure and expertise of the Jülich Supercomputing Center. Other partners contributed to the overall model development process by conducting scaling experiments and preparing downscaling applications. |

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM.
Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM.
Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de