Tabsdata: Pub/Sub for Tables

Auf der IT-Press Tour erklärte Arvind Prabhakar, CEO von Tabsdata, wie Pub/Sub für Tabellen die Komplexität und Ineffizienz traditioneller Datenpipelines angeht.

At the IT-Press Tour, Tabsdata CEO Arvind Prabhakar explained how Pub/Sub for Tables addresses the complexity and inefficiency of traditional data pipelines.

Arvind Prabhakar, CEO von Tabsdata, erklärte auf der IT-Press Tour: „Wir haben es uns zur Aufgabe gemacht, die Datenintegration von einer komplexen Last-Mile-Aufgabe zu einer tragenden Säule datengesteuerter Unternehmen zu machen und den Self-Service-Zugriff auf hochwertige Daten mit unübertroffener Effizienz und reduzierten Kosten zu ermöglichen.

Tabsdata entstand aus jahrzehntelanger Erfahrung und Innovation im Bereich der Datenintegration. Vor der Gründung von Tabsdata verbrachten die Mitbegründer Prabhakar und Alejandro Abdelnur zehn Jahre damit, StreamSets aufzubauen, eine bahnbrechende Datenpipeline-Lösung, die bis heute erfolgreich ist.

Im Laufe der Zeit erkannten sie, dass traditionelle Pipelines zwar leistungsstark sind, aber mit hoher operativer Komplexität, steigenden Kosten und Skalierbarkeitsgrenzen verbunden sind. Mit diesen Erkenntnissen starteten sie Tabsdata, eine Lösung, die mehr Effizienz und geringere Kosten für die Datenintegration in Unternehmen bieten soll.

Tabsdata verwendet ein Publish/Subscribe-Modell (Pub/Sub) für Tabellen und verwandelt die Datenintegration von einer mühsamen Backend-Aufgabe in eine nahtlose, effiziente Self-Service-Erfahrung. Durch die Entkopplung von Datenproduzenten und -konsumenten beseitigt Tabsdata die traditionelle Komplexität und hilft Unternehmen beim Aufbau hochwertiger, skalierbarer Datenökosysteme. Datenpipelines lösten zwar das Problem der Datenbewegung, beeinträchtigten jedoch die Zusammenarbeit, das Vertrauen und die Agilität.

Seit über einem Jahrzehnt ist das Standardkonzept für die Unternehmensdatenintegration klar:

Mehr Pipelines aufbauen → Mehr Daten integrieren → Mehr Wert schaffen. Ich habe das aus nächster Nähe miterlebt. Vor Jahren war ich Mitbegründer von StreamSets, einer der ersten Plattformen, die den Aufbau und Betrieb von Datenpipelines vereinfachen sollten.

Eine Zeit lang funktionierte das auch. Wir haben Systeme miteinander verbunden. Wir haben Daten schneller übertragen. Wir haben neue Anwendungsfälle für Analysen ermöglicht. Allerdings haben Pipelines still und leise etwas viel Wichtigeres untergraben: die Zusammenarbeit innerhalb des Unternehmens, das Vertrauen in Daten und die Agilität.

Pipelines schufen fragile Punkt-zu-Punkt-Abhängigkeiten. Sie fragmentierten die Zuständigkeiten und Verantwortlichkeiten. Sie machten Datenteams reaktiv und hielten sie in einem endlosen Kreislauf aus Feuerwehreinsätzen und Wartungsarbeiten gefangen.

Wir versuchten, dies durch zusätzliche Tools auszugleichen. Wir führten Observability-Stacks, Datenqualitätstools und Governance-Frameworks ein, um die Transparenz und das Vertrauen wiederherzustellen, aber zu diesem Zeitpunkt war das System bereits zusammengebrochen. Neue Architekturen versprachen Abhilfe, konnten jedoch die Grundlagen nicht reparieren. Data Mesh, Data Fabric und zentralisierte Governance-Plattformen waren gut gemeint, aber ineffektiv, wenn sie auf brüchigen, undurchsichtigen Pipelines aufbauten.

Es ist an der Zeit, den Datenfluss innerhalb von Unternehmen zu überdenken. Hier kommt Pub/Sub for Tables ins Spiel. Es handelt sich um ein Modell, das Agilität, Vertrauen und Effizienz wiederherstellt – nicht durch Hinzufügen weiterer Ebenen, sondern durch Ersetzen der brüchigen Grundlage selbst.

Die Komplexitätsspirale: Wie Pipelines zu Funktionsstörungen führten

Pipelines lösten das Problem der Datenübertragung, führten aber auch zu einer Spirale wachsender Komplexität. Sie wurden eingeführt, um Daten zwischen Systemen zu übertragen, und sie haben diese Aufgabe gut erfüllt. Mit jeder neuen Pipeline wurde das System jedoch anfälliger, undurchsichtiger und schwieriger zu verwalten.

Je mehr Pipelines aufgebaut wurden, desto mehr versteckte Abhängigkeiten entstanden. Jede Integration erhöhte den Betriebsaufwand und die enge Kopplung zwischen den Teams. Diese Komplexität wuchs still und leise, wie ein Topf, der langsam zum Kochen kommt. Zunächst schien das kein Problem zu sein, aber mit der Zeit verschlang es Zeit, Budgets und organisatorische Klarheit.

Pipelines lieferten Daten, aber nicht deren Bedeutung, Struktur oder Kontext. Sie transportierten Datensätze zuverlässig von einem System zum anderen, entfernten jedoch die Bedeutung, Struktur und den Kontext, die die Daten nützlich machten.

Die drei Dimensionen von Daten, die sie für ihren Zweck geeignet machen, fehlten.

Datenwert: Die rohen Fakten und Datensätze.

Metadaten: Der strukturelle und operative Kontext.

Semantische Interpretation: Die Bedeutung, der Zweck und die beabsichtigte Verwendung der Daten.

Pipelines transportierten nur den Datenwert und ignorierten die beiden anderen Dimensionen.

Metadaten wurden nachträglich approximiert. Sie waren oft unvollständig, inkonsistent oder aus Protokollen, Konfigurationen und Stammeswissen zusammengeschustert.

Semantische Interpretation fehlte vollständig. Pipelines boten keinen Mechanismus, um Bedeutung, Absicht oder vertragliches Verständnis zwischen Datenproduzenten und -konsumenten zu transportieren.

Dies zwang die Teams dazu, zusätzliche Systeme zu entwickeln, um den Kontext zu rekonstruieren. Observability-Stacks, Datenkataloge und Koordinierungssitzungen wurden obligatorisch.

Jede neue Pipeline brachte kurzfristige Fortschritte, aber auch langfristige Instabilität mit sich. Das Ergebnis war ein Ökosystem aus Silos, Fehlausrichtungen und spiralförmig zunehmender Komplexität, das durch ein Modell angetrieben wurde, das nicht den vollständigen Kontext der Daten transportieren konnte.

Warum das Versprechen von Datenarchitekturen unerfüllt bleibt

Die Branche reagierte auf die Komplexität von Pipelines mit der Einführung neuer Datenarchitekturen, doch die Verwirklichung des Versprechens dieser Architekturen hat sich als schwierig erwiesen.

Data Mesh, Data Fabric, zentralisierte Kataloge und Governance-Frameworks entstanden alle mit der richtigen Absicht: Klarheit, Verantwortlichkeit und Vertrauen in den Datenfluss innerhalb des Unternehmens wiederherzustellen. Sie wurden jedoch auf einer brüchigen, undurchsichtigen Grundlage aufgebaut. Sie wurden über fragile Pipelines gelegt, die von vornherein keine Bedeutung, kein Vertrauen und keine Abstimmung vermitteln konnten. Diese Architekturen versuchten, grundlegende Lücken zu kompensieren, konnten diese jedoch nicht beheben.

Metadatenlösungen, die über bestehende Systeme gelegt wurden, versuchten, die Semantik zurückzugewinnen, kamen jedoch immer zu spät. Die meisten Metadatenplattformen waren reaktiv. Sie versuchten, die Bedeutung zu erfassen, nachdem die Daten bereits verschoben worden waren und der Kontext verloren gegangen war. Das Ergebnis waren verzögerte Semantik und unvollständige Metadaten. Unabhängig davon, wie ausgefeilt der Katalog oder die Governance-Ebene war, war sie immer einen Schritt hinter den tatsächlichen Daten zurück.

Top-down-Vorgaben untergruben die Agilität zusätzlich. Viele Governance-Initiativen schrieben eine starre Klassifizierung und Kontrolle von oben vor, was oft im Widerspruch zu der Autonomie und Geschwindigkeit stand, die Domain-Teams benötigten, um Geschäftswert zu liefern. Die Spannung zwischen zentraler Governance und Domain-Agilität erschwerte die Einführung und führte zu inkonsistenten Ergebnissen.

Das zugrunde liegende Problem wurde nie angegangen. Man kann sich nicht aus einer fragilen, undurchsichtigen Datenbewegung herausregeln. Wenn das Fundament selbst fragil ist, erhöht das Hinzufügen weiterer Architekturebenen nur die Komplexität und verlangsamt alles. Diese Architekturen bleiben unerfüllt, bis das Fundament selbst neu gedacht wird – wie Daten an der Quelle geteilt und verwaltet werden.

Das macht Pub/Sub for Tables möglich.

Ein neues Modell: Pub/Sub für Tabellen

Der Ausweg aus dieser Spirale besteht nicht darin, eine weitere Tooling-Ebene hinzuzufügen, sondern ein völlig anderes Modell zu verwenden.

Pub/Sub für Tabellen wendet das bewährte Publish/Subscribe-Kommunikationsprinzip auf Datensätze an, nicht auf Ereignisse oder einzelne Datensätze.

So funktioniert es:

Datenproduzenten veröffentlichen klar definierte, verwaltete Datensätze (Tabellen).

Datenkonsumenten können diese Datensätze dann deklarativ auf der Grundlage von Verträgen abonnieren, die Struktur, Semantik und Qualität garantieren.

Es gibt keine fragilen Pipelines, Übergaben oder Unterbrechungsketten.

Die Beziehung zwischen Produzenten und Konsumenten wird klar und vertraglich geregelt. Außerdem ist sie selbstbedienungsfähig. Dieses Modell kehrt die Gleichung um.

Von reaktiver Integration zu proaktiver Veröffentlichung
Von fragmentierter Eigentümerschaft zu klarer Verantwortlichkeit
Von impliziten Übergaben zu expliziten Verträgen
Von nachträglicher Governance zu Governance by Design.

Pub/Sub for Tables umfasst alle drei Dimensionen von Daten by Design.

Datenwert: Veröffentlicht in standardisierten, kontrollierten Tabellen.
Metadaten: Explizit, strukturiert und versioniert.
Semantische Interpretation: Vertraglich definiert, um ein gemeinsames Verständnis zu gewährleisten.

Eine nachträgliche Governance ist nicht erforderlich. Der Kontext und die Bedeutung werden mit den Daten selbst übertragen.

Was Pub/Sub for Tables ermöglicht:

Diese Veränderung ist nicht nur technischer Natur, sondern verändert auch die Art und Weise, wie Ihr Unternehmen mit Daten umgeht. Pub/Sub for Tables ermöglicht Folgendes:

– Vereinfachte, automatisierte Daten-Engineering-Workflows: Die Integration wird deklarativ und selbstbedienbar. Dateningenieure können ihren Fokus von der Pipeline-Feuerwehr auf höherwertige Aufgaben verlagern.

Durchsetzbare, transparente Datenverträge: Verträge zwischen Produzenten und Konsumenten sind explizit, versioniert und vertrauenswürdig.

Wiederverwendbare, geregelte Datenprodukte: Durch die Veröffentlichung dieser Verträge werden sie auf natürliche Weise zu auffindbaren, wiederverwendbaren Datensätzen mit klarer Eigentümerschaft und Semantik.

Reibungslose Governance und Aufsicht: Richtlinien werden zum Zeitpunkt der Veröffentlichung eingebettet, wodurch die Compliance transparent und unkompliziert wird.

Eine skalierbare, vertrauenswürdige Datengrundlage für KI und fortschrittliche Analysen: Saubere, kontrollierte, vertragsbasierte Datensätze bilden die Grundlage für Unternehmens-KI und Entscheidungsfindung.

Vertrieb

Open Core mit Closed-Source-Unternehmenserweiterung
Kostenlose Entwicklerlizenz
Ausgerichtet auf Python-Dateningenieure, verfügbar auf PyPi
Selbstverwaltet auf jeder Infrastruktur

Verfügbar auf Github und Slack

Preise

Core-basiert

Tabsdata CEO Arvind Prabhakar at IT-Press Tour declared: “We are on a mission to transform data integration from a complex, last-mile task into a foundational pillar of data-driven organizations, empowering self-service access to high-quality data with unmatched efficiency and reduced costs.

Tabsdata was born from decades of experience and innovation in data integration. Before founding Tabsdata, the co-founders Prabhakar and Alejandro Abdelnur spent ten years building StreamSets, a pioneering data pipelining solution that is still thriving today.

Over time, they realized that, while powerful, traditional pipelines came with high operational complexity, rising costs, and scalability limits. Armed with these insights, they launched Tabsdata, a solution designed to deliver greater efficiency and lower costs for enterprise data integration.

Tabsdata uses a publish/subscribe (pub/sub) model for tables, transforming data integration from a cumbersome back-end task into a seamless, efficient, self-service experience. By decoupling data producers and consumers, Tabsdata eliminates traditional complexity and helps organizations build high-quality, scalable data ecosystems. While data pipelines solved the problem of data movement, they broke collaboration, trust, and agility.”

For over a decade, the standard playbook for enterprise data integration has been clear:

Build more pipelines → Integrate more data → Deliver more value. I’ve seen this up close. Years ago, I co-founded StreamSets, one of the first platforms designed to make data pipelines easier to build and operate.

For a while, it worked. We connected systems. We moved data faster. We enabled new analytics use cases. However, pipelines quietly eroded something far more important: organizational collaboration, trust in data, and agility.

Pipelines created fragile, point-to-point dependencies. They fragmented ownership and accountability. They made data teams reactive and trapped them in an endless cycle of firefighting and maintenance.

We tried to compensate by adding more tooling. We introduced observability stacks, data quality tools, and governance frameworks to restore visibility and trust, but by then, the system had already broken. New architectures promised relief, yet they couldn’t fix the foundation. Data Mesh, Data Fabric, and centralized governance platforms were well-intentioned but ineffective when built on top of brittle, opaque pipelines.

It’s time to rethink how data flows within enterprises. That’s where Pub/Sub for Tables comes in. It’s a model that restores agility, trust, and efficiency — not by adding more layers, but by replacing the brittle foundation itself.

The Complexity Spiral: How Pipelines Created Dysfunction

Pipelines solved the problem of moving data, but they also created a spiral of growing complexity. They were introduced to move data between systems, and they did that job well. However, with every new pipeline, the system became more fragile, opaque, and difficult to manage.

The more pipelines built, the more hidden dependencies created. Each integration increased operational overhead and tight coupling between teams. This complexity grew quietly, like a pot slowly coming to a boil. At first, it didn’t feel like a problem, but over time, it consumed time, budgets, and organizational clarity.

Pipelines delivered data but not its meaning, structure, or context. They reliably moved records from one system to another but stripped away the meaning, structure, and context that made the data useful.

The three dimensions of data that make it fit for purpose were missing.

Data value: The raw facts and records.

Metadata: The structural and operational context.

Semantic interpretation: The meaning, purpose, and intended use of the data.

Pipelines only transported the data value and disregarded the other two dimensions.

Metadata was approximated after the fact. It was often incomplete, inconsistent, or cobbled together from logs, configurations, and tribal knowledge.

Semantic interpretation was completely absent. Pipelines offered no mechanism to carry meaning, intent, or contractual understanding between data producers and consumers.

This forced teams to build additional systems to reconstruct context. Observability stacks, data catalogs, and coordination meetings became mandatory.

Every new pipeline added short-term progress but long-term fragility. The result was an ecosystem of silos, misalignment, and spiraling complexity, all of which were driven by a model that could not carry the full context of the data.

Why the Promise of Data Architectures Remains Unfulfilled

The industry responded to the complexity of pipelines by introducing new data architectures, but realizing the promise of these architectures has proven difficult.

Data Mesh, Data Fabric, centralized catalogs, and governance frameworks all emerged with the right intent: to restore clarity, ownership, and trust in how data flows across the enterprise. However, they were built on top of a brittle, opaque foundation. They were layered over fragile pipelines that couldn’t carry meaning, trust, or alignment in the first place. These architectures attempted to compensate for foundational gaps but couldn’t fix them.

Metadata solutions that were layered on top of existing systems tried to reclaim semantics, but they were always too late. Most metadata platforms were reactive. They attempted to capture meaning after the data had already moved and the context was lost. The result was lagging semantics and incomplete metadata. No matter how sophisticated the catalog or governance layer was, it was always one step behind the actual data.

Top-down mandates further undermined agility. Many governance initiatives imposed rigid classification and control from above, which often clashed with the autonomy and speed that domain teams needed to deliver business value. The tension between central governance and domain agility made adoption difficult and produced inconsistent outcomes.

The underlying issue was never addressed. You can’t govern your way out of brittle, opaque data movement. When the foundation itself is fragile, adding more layers of architecture only increases complexity and slows everything down. These architectures will remain unfulfilled until the foundation itself is reimagined — how data is shared and governed at the source.

That’s what Pub/Sub for Tables makes possible.

A New Model: Pub/Sub for Tables

The way out of this spiral isn’t to add another layer of tooling on top; it’s to adopt a different model altogether.

Pub/Sub for Tables applies the proven publish/subscribe communication principle to datasets, not events or individual records.

Here’s how it works:

Data producers publish well-defined, governed datasets (tables).

Data consumers can then subscribe to these datasets declaratively based on contracts that guarantee structure, semantics, and quality.

No fragile pipelines, handoffs, or breakage chains are involved.

The relationship between producers and consumers becomes clear and contract-driven. It is also self-service. This model flips the equation.

From reactive integration to proactive publishing
From fragmented ownership to clear accountability
From implicit handoffs to explicit contracts
From after-the-fact governance to governance by design.

Pub/Sub for Tables carries all three dimensions of data by design.

Data value: Published in standardized, governed tables.
Metadata: Explicit, structured, and versioned.
Semantic interpretation: Defined contractually to ensure a shared understanding.

There is no need for afterthought governance. The context and meaning travel with the data itself.

What Pub/Sub for Tables Unlocks:

This shift isn’t just technical; it transforms how your organization operates with data. Here’s what Pub/Sub for Tables enables:

– Simplified, automated data engineering workflows: Integration becomes declarative and self-service. Data engineers can shift their focus from pipeline firefighting to higher-value work.

Enforceable, transparent data contracts: Contracts between producers and consumers are explicit, versioned, and trustworthy.

Reusable, governed data products: Publishing these contracts naturally evolves them into discoverable, reusable datasets with clear ownership and semantics.

Governance and oversight without friction: Policies are embedded at the point of publication, making compliance transparent and lightweight.

A scalable, trusted data foundation for AI and advanced analytics: Clean, governed, contract-driven datasets form the foundation of enterprise AI and decision-making.

Distribution

Open Core, with closed source enterprise extension
Free developer license
Targeted towards Python data engineers, available on PyPi
Self-managed on any infrastructure

Available on Github and Slack

Pricing

Core based

Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM.
Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

VonJakob Jung

Von Jakob Jung

Ähnlicher Beitrag

NetApp StorageGRID 12.1

Solidigm: SSD Storage für KI-Infrastrukturen

Veeam treibt die agentische Ära voran

Schreibe einen Kommentar Antwort abbrechen