- Was verbirgt sich hinter dem Begriff Data Governance?
Zunächst einmal sollte der Begriff in Richtung „Daten- und KI-Governance“ ausgeweitet werden. Governance bezieht sich auf den übergreifenden Rahmen und die Praktiken, die die Nutzbarkeit der Daten eines Unternehmens während ihres gesamten Lebenszyklus gewährleisten, was eine ordnungsgemäße Verwaltung, Qualität und Sicherheit einschließt. Sie dient als Grundlage für die digitale Transformation. Datenteams stehen vor vielen Herausforderungen, dazu gehören die Verwaltung verschiedener Datenquellen, der Abbau von Silos, die Aufrechterhaltung der Datenqualität und des maschinelles Lernens (ML), der Erleichterung einer vertrauenswürdigen Datenermittlung, der Gewährleistung eines sicheren Datenzugriffs und der Navigation durch die regulatorischen Untiefen.
- Welche Herausforderungen gibt es bei der Datenverwaltung?
Unternehmen nutzen eine Vielzahl von digitalen Tools und SaaS-Plattformen, um ihre Daten zu speichern, zu verwalten und zu nutzen. Diese existieren jedoch alle als Insellösungen und haben daher proprietäre Governance-Konzepte. Noch größer ist die Diskrepanz, wenn On-Premise- und Cloud-Lösungen zusammengeführt werden. All dies sind Themen, die uns in unseren täglichen Gesprächen mit Unternehmen immer wieder begegnen. Analysten von Gartner schätzen, dass 80 Prozent der Unternehmen, die ihr digitales Geschäft ausbauen wollen, auf Hindernisse stoßen, die auf veraltete Ansätze zur Data- und Analyse-Governance zurückzuführen sind. Die Lösung besteht darin, eine umfassende und umsetzbare Data- und KI-Governance-Strategie zu entwickeln, die das gesamte Spektrum der Datenanwendungen umfasst, von Business Intelligence bis hin zu maschinellem Lernen. Unternehmen stehen vor den folgenden vier zentralen Herausforderungen:
- Fragmentierte Datenlandschaft:Die Existenz von Datensilos in verschiedenen Quellen wie Data Lakes, Warehouses und Datenbanken stellt Governance-Teams vor erhebliche Herausforderungen. Diese Silos behindern die Erstellung einer zusammenhängenden Ansicht der Daten, was zu einer ineffizienten Datenerkennung führt. Die meisten Unternehmen speichern große Mengen unstrukturierter Daten in Cloud-Speicherplattformen wie AWS S3, Azure ADLS und Google Cloud Storage (GCS).
- Komplexes und inkonsistentes Zugriffsmanagement:Unternehmen setzen verschiedene Tools ein, um den Zugriff auf verschiedene Daten und KI-Assets zu sichern, was zu einer komplexen, inkonsistenten und fehleranfälligen Zugriffsverwaltung führt. Auf Data Lakes und Data Warehouses werden unterschiedliche Berechtigungsstrukturen angewendet, was zu inkonsistenten Kontrollen führt.
- Unzureichende Überwachung und Sichtbarkeit:Das Fehlen einer umfassenden Überwachung und Sichtbarkeit des Lebenszyklus von Daten und KI-Assets zwischen den Systemen behindert wirksame Prüfungen, Wirkungsanalysen und Fehlerdiagnosen innerhalb der Daten- und KI-Pipelines. Die Unfähigkeit, den Ursprung, die Entwicklung, die Umwandlungen, die Bewegungen und die Verwendung von Assets zu verfolgen, untergräbt die Qualitätssicherung von Daten.
- Begrenzte plattformübergreifende gemeinsame Nutzung und Zusammenarbeit:Das Fehlen einer standardisierten Freigabelösung behindert die sichere, cloud- und plattformübergreifende Freigabe und Zusammenarbeit von Daten und KI-Assets, einschließlich Machine Learning-Modellen, Notebooks und Dashboards. Diese Situation zwingt Unternehmen dazu, Daten über mehrere Plattformen, Clouds und Regionen hinweg zu replizieren, um die Zusammenarbeit zu erleichtern, was zu Redundanzen führt.
- Wie hat sich dieser Aufgabenbereich in den letzten Jahren entwickelt?
In den letzten Jahren sind immer mehr Anbieter aufgetaucht, die versucht haben, das Thema mit einer Insellösung anzugehen und genau hier setzt Databricks an. Die Databricks Intelligence Platform ermöglicht Datenmanagement und -analyse sowie die Erstellung von KI-gestützten Lösungen auf kosteneffiziente und flexible Weise und erfüllt gleichzeitig eine breite Palette von Data-Governance-Anforderungen. Mit Unity Catalog wurde eine Open Source-Lösung zur Verwaltung von strukturierten und unstrukturierten Daten veröffentlicht. Sie hilft Unternehmen dabei eine einheitliche Governance für tabellarische und nicht-tabellarische Daten sowie für KI-Assets wie ML-Modelle und generative KI-Tools zu gewährleisten und die Verwaltung im großen Maßstab zu vereinfachen.
Der Unity Catalog OSS ist Open Source und maximiert dadurch die Flexibilität und die Wahlmöglichkeiten der Kunden, indem er die Möglichkeit bietet, mit verschiedenen Engines, Tools und Plattformen zu arbeiten. Dank seiner Offenheit durchbricht er Silos und ermöglicht es Unternehmen, moderne Daten- und KI-Anwendungen zu erstellen, die tabellarische Daten in verschiedenen Tabellenformaten, unstrukturierte Daten, ML-Modelle, Vektorindizes und KI-Tools kombinieren.
- Welche Rolle spielt GenAI?
GenAI hat eine Reihe von Möglichkeiten für Unternehmen auf der ganzen Welt und auch in Deutschland eröffnet. Vor allem KI ist zunehmend in Kernprozesse integriert worden. Auf der anderen Seite hat dies den Bedarf an Governance erhöht, um Fairness, Verantwortlichkeit und auch Sicherheit zu gewährleisten. Die Ergebnisse von McKinseys Global Survey zu KI unterstreichen, dass Unternehmen, die die höchsten KI-Renditen erzielen, über umfassende KI-Governance-Frameworks verfügen. Diese decken jede Phase des Entwicklungsprozesses ab. Kurz gesagt, die Grundsätze der Governance – Verantwortlichkeit, Standardisierung, Compliance, Qualität und Transparenz – gelten für KI mindestens genauso wie für Daten. Die KI-Governance legt die Richtlinien und Verfahren für die Entwicklung und Anwendung von Modellen in einem Unternehmen fest. Mit einer angemessenen Governance kann KI den Wert von Geschäftsprozessen erhöhen, die Effizienz bei der Automatisierung oder Erweiterung der Entscheidungsfindung steigern und regulatorische, rechtliche und Reputationsrisiken verringern.
- Wie wird Data Governance im Jahr 2025 aussehen?
Data- und KI-Governance sind entscheidend für jede Organisation, die das Beste aus ihrer Daten- und KI-Strategie herausholen möchte. Daher benötigen Unternehmen einen einheitlichen Ansatz zur Vereinfachung der Data-, Analyse- und KI-Governance, z. B. innerhalb der Databricks Data Intelligence Platform. Einmal richtig eingerichtet, sind Datenteams in der Lage, verschiedene Datenquellen zu verwalten, Silos aufzulösen und die Qualität von Daten und ML-Modellen aufrechtzuerhalten. Darüber hinaus ermöglicht es ihnen eine vertrauenswürdige Datenermittlung, einen sicheren Datenzugriff zu gewährleisten und sich in der regulatorischen Landschaft zurechtzufinden. Eine zukunftsweisende Data-Governance-Strategie wird zum Kompass, der diese Komplexität auffängt und Unternehmen in die Lage versetzt, das Potenzial ihrer Dateninvestitionen voll auszuschöpfen.
|
- What does the term Data Governance mean?
First, let’s expand the term to „data and AI“ governance. Governance refers to the overarching framework and practices that ensure the usability of an organization’s data throughout its lifecycle, which includes proper management, quality, and security. It serves as the foundation for digital transformation. Data teams face many challenges, including managing disparate data sources, breaking down silos, maintaining data and machine learning (ML) model quality, facilitating trusted data discovery, ensuring secure data access, and navigating the regulatory landscape.
- What are your current data governance challenges?
Organizations use a variety of digital tools and SaaS platforms to store, manage, and leverage their data. However, these all exist as siloed solutions and therefore have proprietary governance approaches. There is an even greater disconnect when on-premises and cloud solutions are brought together. These are all common themes we hear in our daily conversations with customers.
Gartner estimates that 80 percent of organizations that want to expand their digital business will encounter obstacles due to outdated approaches to data and analytics governance. The solution is to create a comprehensive and actionable data and AI governance strategy that encompasses the entire range of data applications, spanning from business intelligence to machine learning. Organizations face the following four key challenges:
- Fragmented data landscape: The presence of data silos across various sources, such as data lakes, warehouses and databases, poses significant challenges for governance teams. These silos hinder the creation of a cohesive view of data, resulting in inefficient data discovery. Most organizations store massive amounts of unstructured data in cloud storage platforms like AWS S3, Azure ADLS and Google Cloud Storage (GCS).
- Complex & inconsistent access management:Enterprises utilize various tools to secure access to diverse data and AI assets, leading to complex, inconsistent and error-prone access management. Different permission structures are applied to data lakes and data warehouses, resulting in inconsistent controls.
- Inadequate monitoring and visibility: The lack of comprehensive monitoring and visibility into the lifecycle of data and AI assets between systems hampers effective audits, impact analyses and error diagnosis within data and AI pipelines. This inability to track the origin, evolution, transformations, movements and usage of assets undermines data quality assurance.
- Limited cross-platform sharing and collaboration: The absence of a standardized sharing solution inhibits secure cross-cloud and cross-platform sharing and collaboration of data and AI assets, including machine learning models, notebooks and dashboards. This situation forces enterprises to replicate data across multiple platforms, clouds and regions to facilitate collaboration, resulting in redundancy.
- How has this area of responsibility developed in recent years?
Over the last few years, more and more providers have emerged who have tried to address the issue with a stand-alone solution and this is exactly where Databricks comes in. The Databricks Intelligence Platform enables data management and analysis as well as the creation of AI-powered solutions in a cost-efficient and flexible manner, while at the same time fulfilling a wide range of data governance requirements. We released and open-sourced a solution to govern both structured and unstructured data called Unity Catalog to help customers ensure unified governance for tabular and non-tabular data as well as AI assets such as ML models and generative AI tools, simplifying management at scale.
Being open source, the Unity Catalog OSS maximizes flexibility and customer choice by enabling the possibility to operate across various engines, tools and platforms. Due to it’s openness it breaks silos and lets companies build modern data and AI applications, which combine tabular data in multiple table formats, unstructured data, ML models, vector indices, and AI tools.
- What role does GenAI play?
GenAI has enabled a couple of opportunities for companies around the world and in Germany as well. Especially AI has become increasingly ingrained in core operations. On the other end, this has increased the need for governance to ensure fairness, accountability and also security. The results of McKinsey’s Global Survey on AI emphasizes that organizations that achieve the highest AI returns have comprehensive AI governance frameworks. These cover every stage of the development process. In short, the principles of governance — accountability, standardization, compliance, quality and transparency — apply at least as much to AI as to data. AI governance sets out the policies and procedures for the development and application of models in an organization. With proper governance, GenAI can bring improved value to business processes, efficiency in automating or augmenting decision-making and decreased regulatory, legal and reputation risks.
- What will data governance look like in 2025?
Data and AI governance are crucial for every organization that wants to get the most out of their Data and AI strategy. Therefore, organizations need a unified approach to simplify data, analytics and AI governance e.g. within the Databricks Data Intelligence Platform. Once set up right, Data teams are able to manage diverse data sources, dismantling silos, upholding data and ML model quality, facilitating trusted data discovery, ensuring secure data access and navigating regulatory landscapes. A forward-looking data governance strategy emerges as the guiding compass, addressing these complexities and empowering organizations to fully unlock the potential of their data investments. |