Paradigm4 presenta flexFS: sistema de archivos paralelo nativo para objetos orientado a los cuellos de botella de almacenamiento en IA y HPC

Un producto de almacenamiento creado para resolver un problema específico en genómica a escala poblacional ha crecido silenciosamente hasta gestionar petabytes de datos clínicos de investigación en grandes empresas farmacéuticas, y su creador, Paradigm4, lo posiciona ahora como infraestructura para cargas de trabajo de inteligencia artificial y aprendizaje automático.

bioinformática, presentó flexFS en el IT Press Tour celebrado en Boston en junio de 2026. El producto, ahora en versión 1.9, aborda una tensión estructural en la computación en la nube moderna: la mayoría de las aplicaciones — marcos de entrenamiento de IA, pipelines HPC, motores de análisis y, cada vez más, agentes de IA — se comunican mediante interfaces de archivos POSIX, mientras que el almacenamiento económicamente racional a escala implica servicios de almacenamiento de objetos como AWS S3, Azure Blob o Google Cloud Storage. El almacenamiento de objetos es económico y elástico, pero introduce latencia y expone una API que la mayoría de las herramientas de software no hablan de forma nativa.

La empresa atribuye los orígenes de flexFS al trabajo con licenciatarios del UK Biobank, que necesitaban procesar cientos de terabytes de datos genómicos en cientos de nodos de cómputo paralelos simultáneamente. Gary Planthaber, CTO de Paradigm4 e inventor de flexFS, describió la evaluación de opciones existentes — soluciones de código abierto como JuiceFS, ObjectiveFS y S3FS, así como servicios gestionados como Amazon FSx for Lustre y EFS — y concluyó que ninguna satisfacía la combinación de rendimiento, coste, conformidad POSIX completa e idoneidad para datos regulados de ciencias de la vida. La empresa construyó flexFS internamente como resultado.

La arquitectura separa el manejo de metadatos del I/O de datos de archivos. Un servidor de metadatos dedicado de flexFS proporciona respuestas de baja latencia a operaciones del sistema de archivos — listados de directorios, comprobaciones de permisos, actualizaciones de inodos — mientras los datos de archivos se escriben y leen del almacenamiento de objetos en bloques paralelos. Cada archivo se divide en bloques, a cada bloque se le asigna un identificador de objeto único; este enfoque permite la recuperación paralela a través del almacenamiento de objetos en lugar del acceso secuencial a través de un único servidor. Un grupo proxy opcional — efectivamente una caché de escritura diferida que utiliza RAM y almacenamiento NVMe — se sitúa entre las instancias de cómputo y el backend de objetos para cargas de trabajo sensibles a la latencia.

flexFS opera en cinco configuraciones de despliegue: nube de región única, multiregión y multinube, local, híbrido y convergente, donde los servicios de almacenamiento se ejecutan en los mismos nodos que los procesos de cómputo. En la configuración convergente, validada conjuntamente con Oracle en OCI, el sistema demostró un rendimiento próximo a los niveles de NVMe local a pesar de que los datos persisten en almacenamiento de objetos en red.

Los datos de producción más detallados presentados corresponden a una empresa biofarmacéutica de primer nivel mundial que utiliza flexFS para un Research Data Commons: un repositorio global de datos clínicos y genómicos. El despliegue alberga actualmente 1,14 petabytes en más de 160 millones de archivos y carpetas. Según cifras de Paradigm4, el cliente ahorró 1,44 millones de dólares solo en 2025 frente al conjunto alternativo de AWS, que habría combinado FSx for Lustre, EFS, EBS y S3. A lo largo de 43 meses, los ahorros acumulados ascendieron a 3,13 millones de dólares, un 55 por ciento de lo que habría costado la configuración nativa de AWS. A la escala actual de 1,14 petabytes, la factura completa de flexFS más S3 asciende a 110.000 dólares al mes; solo el componente de almacenamiento EFS de la alternativa costaría 141.000 dólares mensuales.

La ventaja de coste es, según Paradigm4, de naturaleza estructural. FSx for Lustre aprovisiona almacenamiento en incrementos de 2,4 TiB y no puede reducirse sin migrar datos, un proceso que provocó tiempos de inactividad prolongados para los investigadores del cliente. FSx también vincula la capacidad de rendimiento al almacenamiento aprovisionado, lo que obliga a las organizaciones a sobredimensionar el almacenamiento para obtener el rendimiento necesario. A lo largo de 43 meses, el despilfarro por sobredimensionamiento ascendió a 332.000 dólares para el cliente farmacéutico según Paradigm4. flexFS, por el contrario, cobra por los bytes realmente almacenados sin unidades mínimas de aprovisionamiento, y escala el rendimiento de forma independiente del almacenamiento.

Más allá del coste, la presentación destacó diversas propiedades operativas. flexFS implementa la recuperación en un momento determinado sin cargo adicional mediante un esquema de asignación de bloques por redireccionamiento en escritura: cuando se sobrescribe un bloque, los nuevos datos se escriben en un nuevo identificador de objeto mientras el antiguo se conserva durante el período de retención configurado. Las actualizaciones de servidor interrumpen el I/O menos de un segundo; las actualizaciones de cliente se realizan mediante transferencia de sesión FUSE sin desmontar. Un controlador CSI de Kubernetes con soporte para Helm chart permite el montaje directo de volúmenes en pods. Una utilidad find optimizada consulta directamente el servidor de metadatos en lugar de recorrer el sistema de archivos montado.

Paradigm4 está extendiendo el producto a cuatro casos de uso más recientes. Para entornos de data lakehouse, la empresa ejecutó consultas de referencia TPC-H al factor de escala 100: la configuración más rápida — Spark más Gluten con flexFS con proxy — completó las 22 consultas en 176 segundos frente a 1.191 segundos para Spark sobre S3 de referencia. Para bases de datos de arquitectura fuertemente acoplada como almacenes de datos MPP o bases de datos de grafos y vectores, flexFS puede desacoplar cómputo y almacenamiento, permitiendo un escalado independiente y reduciendo el coste total de propiedad hasta un 60 por ciento según cifras de la empresa, sin requerir cambios de código. Para cargas de trabajo de entrenamiento de IA y ML, el sistema apunta a los tiempos de inactividad de GPU causados por la saturación del rendimiento de S3, reclamando una mejora de velocidad de dos veces sobre S3 directo sin caché proxy. Para despliegues de IA agéntica, el entorno POSIX y el espacio de nombres compartido permiten a los agentes intercambiar rutas de archivos en lugar de copias de datos.

Paradigm4 también solicita comentarios de analistas sobre una categoría de mercado propuesta denominada “File Lakehouse”, destinada a describir plataformas que combinan la economía del almacenamiento de objetos con la semántica POSIX para cargas de trabajo de datos no estructurados, entrenamiento de IA y computación agéntica.

flexFS cuenta con certificación ISO 27001, admite cifrado AES-256 de extremo a extremo con claves alojadas exclusivamente en los nodos de cómputo, y reivindica once nueves de durabilidad de datos en backends de nube a hiperescala. Una edición comunitaria — limitada a cinco terabytes y sin soporte para grupos proxy — está disponible sin coste. Las instalaciones empresariales se completan típicamente en menos de una hora. La versión actual es la 1.9.

Jakob Jung

El Dr. Jakob Jung es redactor jefe de Security Storage y Channel Germany. Lleva más de 20 años trabajando en el periodismo especializado en TI. A lo largo de su carrera ha colaborado con Computer Reseller News, Heise Resale, Informationweek, Techtarget (almacenamiento y centros de datos) y ChannelBiz. Además, colabora como freelance con numerosas publicaciones del sector de las TI, entre las que se incluyen Computerwoche, Channelpartner, IT-Business, Storage-Insider y ZDnet. Sus temas principales son el canal, el almacenamiento, la seguridad, los centros de datos, los sistemas ERP y CRM.

Contacto – Contacto por correo electrónico: jakob.jung@security-storage-und-channel-germany.de

Paradigm4 presenta flexFS: sistema de archivos paralelo nativo para objetos orientado a los cuellos de botella de almacenamiento en IA y HPC

PorJakob Jung

Por Jakob Jung

Entrada relacionada

NetApp lanza StorageGRID 12.1 con espacio de nombres global para cargas de trabajo de IA

Solidigm defiende el almacenamiento como factor limitante del retorno de la IA

Veeam avanza hacia la era agéntica

Deja una respuesta Cancelar la respuesta