Alles rund um Data Catalog
Was ist ein Data Catalog?
Ein Data Catalog (auf deutsch „Datenkatalog“) ist ein Verzeichnis, zentrales Repository oder eine Datenbank, in der alle Daten aus einem Unternehmen enthalten sind. Es ist somit der heilige Gral – den hier sind alle Daten gespeichert, welche das Unternehmen je gesammelt oder erstellt hat.
Das Ziel des Data Catalogs ist es, die Auffindbarkeit, Zugänglichkeit und Verwaltung von Daten innerhalb einer Organisation zu verbessern. Dafür können User Daten effizienter durchsuchen, neue entdecken und sie nutzen, denn zusätzlich zu den Daten an sich sind dort auch Metadaten, Beschreibungen für Datenquellen, Datenbanken, Tabellen, Datensätze, Datenherkunft und Datenqualität vermerkt. Darüber hinaus können Data Catalogs auch Informationen über Datenbeziehungen, Datenlinien und Datenverwendungsrichtlinien enthalten. Sie spielen eine entscheidende Rolle bei der Unterstützung von Data-Governance-Initiativen und der Förderung einer datengetriebenen Unternehmenskultur.
Zudem unterstützt es die Sicht auf Daten als Assets.
Wofür wird ein Data Catalog genutzt?
Um data driven zu werden, müssen Unternehmen ihre Daten nicht nur gut strukturieren, sondern auch den Zugang zu diesen vereinfachen. Genau dabei unterstützt ein Data Catalog. Er optimiert somit die Datenverwaltung und Datennutzung im Unternehmen. Hierdurch unterstützt er auch die Zusammenarbeit zwischen Teams.
Folgende Anwendungsbereiche ermöglicht ein Data Catalog:
Datenentdeckung:
Ein Data Catalog ermöglicht es Usern, schnell und effizient die benötigten Daten in großen und komplexen Datenlandschaften zu finden.
Unterstützung beim Datenverständnis
Durch die Bereitstellung von Metadaten und Beschreibungen hilft der Katalog den Usern, den Kontext, die Qualität und die Relevanz der Daten besser zu verstehen.
Die Basis für Data Governance
Ein Data Catalog unterstützt Data Governance-Initiativen, indem er Informationen über Datenbesitz, Datenstewardship, Datenqualitätsmetriken und Datenverwendungsrichtlinien bereitstellt.
Förderung der Zusammenarbeit zwischen Teams und Fachbereichen
Teams können Anmerkungen zu Datenquellen hinzufügen, Erfahrungen austauschen und Best Practices teilen, wodurch die Zusammenarbeit zwischen Data Scientists, Data Engineers, Analysts und anderen Daten-Usern gefördert wird.
Sicherheit und Compliance
Der Data Catalog kann dazu beitragen, sicherzustellen, dass Daten gemäß den Datenschutz- und Compliance-Richtlinien einer Organisation verwendet werden, indem er Informationen über Datenbeschränkungen und -berechtigungen bereitstellt.
Datenlinie (Data Lineage)
Einige fortgeschrittene Data Catalogs bieten Einblicke in die Herkunft der Daten, ihre Bewegung durch Systeme und ihre Transformationen, was für die Datenqualität und -integrität entscheidend ist.
Self Service
Ein Data Catalog kann den Selbstbedienungszugriff auf Daten erleichtern, indem er Usern ermöglicht, Datenquellen basierend auf ihren Berechtigungen zu erkunden und abzurufen.
Optimierung von Datenprojekten
Durch die zentrale Auffindbarkeit von Daten können Datenprojekte, sei es in der Analyse, im Reporting oder in der Datenwissenschaft, effizienter und genauer durchgeführt werden.
Du willst noch mehr über die Buzzwords im Data wissen?
News findest Du in unserem Newsletter!
Data News für Pros
Du willst mehr wissen? Dann abonnier doch unseren Newsletter! Regelmäßige News aus der Data-Welt rund um neue Entwicklungen, Tools, Best Practices und Events!
Du willst noch mehr über die Buzzwords im Data wissen?
News findest Du in unserem Newsletter!
Wer nutzt einen Data Catalog im Unternehmen?
Ein Data Catalog kann die Kultur im Unternehmen stark vorantreiben. Durch ein Tool mit benutzerfreundlicher Oberfläche ist es möglich, dass nicht nur die Mitarbeitenden im Data-Team, sondern aus allen Fachbereichen in der Lage sind, dort Daten zu finden, sie zu interpretieren und mit ihnen zu arbeiten – auch ohne Datenbank Know-How.
Diese Funktionen sollte der Data Catalog im Unternehmen haben
Natürlich sind die Ansprüche, die Unternehmen an einen Data Catalog stellen, extrem unterschiedlich. Sie sind abhängig vom Reifegrad des Unternehmens, aber auch von den Menschen, welche den Data Catalog nutzen wollen, sowie von den Zielen, welche die Organisation hat. Der Data Catalog muss zur Datenstrategie passen!
Diese Schlüsselfunktionen gibt es bei Data Catalog Tools:
Automatisierung von Daten
Ein gut gepflegter Data Catalog unterstützt automatisierte Prozesse im Gegensatz zu manuellen Prozessen. Wenn er gut aufgesetzt ist, organisiert und verwaltet er sich weitestgehend selbst – das sorgt für eine hohe Geschwindigkeit. Daten werden dann automatisch eingepflegt, angereichert und kategorisiert, weil Verknüpfungen zwischen den Datensätzen hergestellt werden.
Konnektoren – die Verbindung zu bestehenden Tools
Ein Data Catalog soll kein weiteres Gewicht für die Data-Teams sein. Deswegen ist es möglich, Datensätze zu erfassen – egal welcher Art und Quelle. Ob aus Business Intelligence-Tools, SQL-Queries, Datenintegrationstools, Visualisierungstools oder auch CRM und Unternehmenstools.
Suchfunktionen
Jetzt sind alle Daten gesammelt – dann sollte man sie auch einzeln wieder herauspicken können! Eine starke Suchfunktion unterstützt dabei, schnell und auch bei der Eingabe mehrerer Parameter die richtigen Suchergebnisse zu erhalten und diese dann wieder filtern zu können.
Data Lineage
Eine Data Lineage-Funktion kann man sich vorstellen wie einen Stammbaum. Sie zeigt, wo die Daten herkommen und wie sie miteinander verbunden sind – eine Abstammungslinie sozusagen. Sollten inkonsistente Daten vorliegen, kann auf Basis der Data Lineage-Funktion herausgefunden werden, wo das Problem liegt. Diese Funktion ist auch wichtig in Bezug auf Data Governance.
Glossar – damit alle auf dem gleichen Stand sind
Damit alle Mitarbeitenden im Unternehmen das gleiche Verständnis von Daten haben, unterstützt ein Glossar, welches Abkürzungen und Begriffe erläutert. Dadurch können die Daten auch mit Schlagworten versehen werden. Auch in Bezug auf die DSGVO ist diese Funktion ratsam.
Metadaten-Management
Damit nicht nur reine Daten gesammelt werden, sondern auch weitere Informationen über diese vorhanden sind, müssen Metadaten gesammelt werden, durch welche die Daten im Data Catalog angereichert werden. Dies sorgt auch für exaktere Suchergebnisse und erhöht die Qualität der Datennutzung.
Welche Metadaten werden in einem Data Catalog betrachtet?
In einem Data Catalog werden Metadaten gespeichert – also Daten, die einen Datenbestand beschreiben oder dem User Informationen über den Datenbestand liefern. Dadurch steigt die Auffindbarkeit, die Bewertung und das Verständnis von Daten.
Hauptsächlich findet man in einem Data Catalog folgende Metadaten:
Geschäftliche Metadaten
Geschäftliche Metadaten beschreiben den unternehmerischen Wert und die Relevanz von Daten, einschließlich ihrer Konformität mit Vorschriften. Sie erleichtern die Kommunikation zwischen Datenexperten und Geschäftsanwendern. Ein Data Catalog sollte nicht nur das Sammeln und Organisieren dieser Metadaten unterstützen, sondern auch Werkzeuge bieten, um sie mit zusätzlichen Informationen wie Tags, Bewertungen und Anmerkungen zu ergänzen. Dies erleichtert den Nutzern das Auffinden, Verwenden und Vertrauen in die Daten.
Prozessbezogene Metadaten
Prozessbezogene Metadaten beschreiben die Entstehung eines Datenbestands sowie dessen Zugriffs- und Änderungshistorie. Sie geben Auskunft darüber, wer berechtigt ist, die Daten zu nutzen. Diese Metadaten bieten Einblicke in die Datenhistorie, ihre Quellen und Aktualisierungen, was Analysts bei der Bewertung ihrer Relevanz unterstützt. Sie sind auch nützlich für die Fehlerbehebung und können analysiert werden, um Erkenntnisse über Software-User und die Qualität des angebotenen Services zu gewinnen.
Technische Metadaten
Technische Metadaten beschreiben die Organisation und Darstellung von Daten, einschließlich ihrer Strukturen wie Tabellen und Indizes. Sie informieren die zuständigen Data-User über die Handhabung der Daten, beispielsweise ob Anpassungen für Analysen oder Integrationen erforderlich sind.
Silos abschaffen – Data Catalog anschaffen
Ein Data Catalog ist ein wichtiger Schritt auf dem Weg zur data driven Company.
Er sorgt dafür, dass Silos abgeschafft werden, Self Service zunimmt und verbessert dadurch auch die Kultur, welche im Unternehmen in Bezug auf Daten besteht. Zudem sorgt er für einen besseren Überblick über bestehende Daten, erleichtert die Kategorisierung und gibt dadurch den Data-Teams den Freiraum, Daten nicht nur zu sammeln, sondern mit diesen neue Geschäftsmodelle und Automatisierungen zu etablieren.
Du denkst auch über die Anschaffung eines Data Catalogs nach? Dann melde Dich bei uns.
Wir sind eine Beratungsfirma im Datenbereich, die Unternehmen dabei hilft, durch datenbasierte Erkenntnisse Produktinnovationen voranzutreiben und ihre Markenbildung zu stärken.
Unsere Expertise liegt in der Vereinigung von Technologie und Menschlichkeit, der Gestaltung von Prozessen und Unternehmenskulturen sowie in der Anwendung eines daten- und kundenorientierten Ansatzes.
Gemeinsam mit dir entwickeln wir individuelle Datenstrategien und setzen diese in die Praxis um.
Passende Case Studies
Zu diesem Thema gibt es passende Case Studies
Zur datengetriebenen Company werden?
Abonniere unseren Newsletter und bleibe auf dem Laufenden.
Data News für Pros
Du willst mehr wissen? Dann abonnier doch unseren Newsletter! Regelmäßige News aus der Data-Welt rund um neue Entwicklungen, Tools, Best Practices und Events!
Zur datengetriebenen Company werden?
Abonniere unseren Newsletter und bleibe auf dem Laufenden.