Paradigm4 stellt flexFS vor: Objekt-natives paralleles Dateisystem

Ein Speicherprodukt, das ursprünglich für einen engen Anwendungsfall in der genetischen Forschung entwickelt wurde, verwaltet inzwischen Petabytes klinischer Forschungsdaten bei mehreren großen Pharmakonzernen — und sein Hersteller Paradigm4 positioniert es nun als Infrastrukturschicht für Künstliche Intelligenz und maschinelles Lernen, wie auf der IT Press Tour gezeigt.

Paradigm4, ein Start-up mit Wurzeln in der Bioinformatik, präsentierte flexFS auf der IT Press Tour im Juni 2026 in Boston. Das Produkt in Version 1.9 adressiert eine strukturelle Spannung im modernen Cloud-Computing: Der Großteil der Anwendungen — KI-Trainingsframeworks, HPC-Pipelines, Analysewerkzeuge und zunehmend auch KI-Agenten — kommuniziert über POSIX-Dateischnittstellen, während wirtschaftlich rationale Speicherung im Großmaßstab Object-Storage-Dienste wie AWS S3, Azure Blob oder Google Cloud Storage bedeutet. Object Storage ist kostengünstig und elastisch, führt jedoch zu Latenz und exponiert eine API, die die meisten Software-Tools nicht nativ unterstützen.

Das Unternehmen führt die Entstehung von flexFS auf die Arbeit mit UK-Biobank-Lizenznehmern zurück, die Hunderte von Terabytes genomischer Daten auf Hunderten paralleler Rechenknoten gleichzeitig verarbeiten mussten. Gary Planthaber, CTO von Paradigm4 und Erfinder von flexFS, schilderte die Evaluation bestehender Lösungen — darunter Open-Source-Systeme wie JuiceFS, ObjectiveFS und S3FS sowie verwaltete Dienste wie Amazon FSx for Lustre und EFS — und kam zu dem Schluss, dass keine die Kombination aus Durchsatz, Kosten, vollständiger POSIX-Konformität und Eignung für regulierte Lebenswissenschaftsdaten erfüllte. Das Unternehmen entwickelte flexFS daraufhin intern.

Die Architektur trennt Metadaten-Handling von Datei-I/O. Ein dedizierter flexFS-Metadatenserver liefert latenzarme Antworten auf Dateisystemoperationen — Verzeichnislistings, Berechtigungsprüfungen, Inode-Aktualisierungen — während Dateidaten parallel in Blöcken aus dem Object Store gelesen und geschrieben werden. Jede Datei wird in Blöcke aufgeteilt, jedem Block wird eine eindeutige Objekt-ID zugewiesen; dieser Ansatz ermöglicht parallelen Zugriff über den Object Store statt sequenziellen Zugriff über einen einzelnen Server. Eine optionale Proxy-Gruppe — effektiv ein Write-Back-Cache mit RAM und NVMe-Speicher — befindet sich zwischen Compute-Instanzen und dem Object-Backend für latenzempfindliche Workloads.

flexFS läuft in fünf Bereitstellungskonfigurationen: Single-Region-Cloud, Multi-Region- und Multi-Cloud, On-Premises, Hybrid und Converged, bei dem Speicherdienste auf denselben Knoten wie die Rechneränger ausgeführt werden. In der Converged-Konfiguration, gemeinsam mit Oracle auf OCI validiert, zeigte das System Leistung nahe lokaler NVMe-Niveaus, obwohl die Daten im vernetzten Object Storage verbleiben.

Die detailliertesten Produktionsdaten betreffen ein Top-5-Pharmaunternehmen, das flexFS für einen Research Data Commons nutzt — ein globales Repository für klinische und genomische Daten. Die Bereitstellung umfasst inzwischen 1,14 Petabytes über mehr als 160 Millionen Dateien und Ordner. Laut Paradigm4 sparte der Kunde allein 2025 1,44 Millionen US-Dollar gegenüber dem alternativen AWS-Stack aus FSx for Lustre, EFS, EBS und S3. Über 43 Monate hinweg beliefen sich die kumulierten Einsparungen auf 3,13 Millionen US-Dollar, was 55 Prozent der Kosten einer AWS-nativen Konfiguration entspricht. Zum aktuellen Maßstab von 1,14 Petabytes beläuft sich die Gesamtrechnung für flexFS plus S3 auf 110.000 US-Dollar pro Monat; allein die EFS-Speicherkomponente der Alternativlösung würde monatlich 141.000 US-Dollar kosten.

Der Kostenvorteil ist laut Paradigm4 struktureller Natur. FSx for Lustre stellt Speicher in 2,4-TiB-Inkrementen bereit und kann ohne Datenmigration nicht verkleinert werden — ein Prozess, der beim Kunden längere Auszeiten für Forscher verursachte. FSx verknüpft außerdem Durchsatzkapazität mit bereitgestelltem Speicher, was Organisationen zwingt, Speicher über den Bedarf hinaus vorzuhalten. Über 43 Monate belief sich die Überbereitstellungsverschwendung laut Paradigm4 auf 332.000 US-Dollar. flexFS berechnet hingegen die tatsächlich gespeicherten Bytes ohne Mindestbereitstellungseinheiten und skaliert Durchsatz unabhängig vom Speicher.

Darüber hinaus wurden mehrere Betriebseigenschaften vorgestellt. flexFS implementiert Point-in-Time-Recovery ohne Aufpreis durch ein Redirect-on-Write-Blockzuordnungsschema: Beim Überschreiben eines Blocks werden neue Daten unter einer neuen Objekt-ID gespeichert, während die alte für den konfigurierten Aufbewahrungszeitraum erhalten bleibt. Server-Updates unterbrechen den I/O für weniger als eine Sekunde; Client-Updates erfolgen per FUSE-Session-Handoff ohne Unmount. Ein Kubernetes-CSI-Treiber mit Helm-Chart-Unterstützung ermöglicht das direkte Einbinden von Volumes in Pods. Ein optimiertes find-Werkzeug abfragt direkt den Metadatenserver statt das montierte Dateisystem zu traversieren.

Paradigm4 erweitert das Produkt auf vier neuere Anwendungsfälle. Für Data-Lakehouse-Umgebungen führte das Unternehmen TPC-H-Benchmark-Abfragen bei Skalierungsfaktor 100 durch: Die schnellste Konfiguration — Spark plus Gluten mit flexFS-Proxy — absolvierte alle 22 Abfragen in 176 Sekunden gegenüber 1.191 Sekunden für Baseline-Spark auf S3. Für stark gekoppelte Datenbankarchitekturen wie MPP-Data-Warehouses oder Graph- und Vektordatenbanken kann flexFS Compute und Storage entkoppeln, was laut Unternehmensangaben eine TCO-Reduktion um bis zu 60 Prozent ohne Codeänderungen ermöglicht. Für KI- und ML-Training zielt das System auf GPU-Leerlaufzeiten ab und beansprucht einen zweifachen Geschwindigkeitsvorteil gegenüber S3 Direct ohne Proxy-Cache. Für Agentic-AI-Einsatzszenarios ermöglicht die POSIX-Umgebung Agenten, Dateipfade statt Datenkopien auszutauschen.

Paradigm4 bittet Analysten zudem um Rückmeldung zu einer vorgeschlagenen Marktkategorie namens „File Lakehouse“, die Plattformen beschreiben soll, die Object-Storage-Ökonomie mit POSIX-Dateisystemsemaniken für unstrukturierte Datensätze, KI-Training und agentisches Computing verbinden.

flexFS ist ISO 27001 zertifiziert, unterstützt durchgängige AES-256-Verschlüsselung mit Schlüsseln ausschließlich auf Compute-Knoten und beansprucht elf Neunen Datendauerhaftigkeit auf Hyperscale-Cloud-Backends. Eine Community-Edition — auf fünf Terabytes begrenzt und ohne Proxy-Gruppen-Unterstützung — ist kostenlos verfügbar. Unternehmensinstallationen erfolgen typischerweise in unter einer Stunde. Die aktuelle Version ist 1.9.

Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM.
Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Paradigm4 stellt flexFS vor: Objekt-natives paralleles Dateisystem

VonJakob Jung

Von Jakob Jung

Ähnlicher Beitrag

NetApp übernimmt DataPelago

Cohesity: Fitzjohn Vice President Partner Channel Sales GTM Europa

Deutsche Unternehmen bekennen sich zu NIS2

Schreibe einen Kommentar Antwort abbrechen