Lakehouse
Data Lakehouse ist eine moderne Datenarchitektur, die die Vorteile von Data Lakes und Data Warehouses vereint.
Lakehouse Herkunft
- Der Begriff wurde 2020 von Databricks, den Mitbegründern von Apache Spark, geprägt.
- Ziel war es, die Einschränkungen von Data Lakes und Data Warehouses zu überwinden und eine einheitliche Plattform zu schaffen, die verschiedene Datentypen und Workloads unterstützt.
- Data Lakehouses adressieren die Schwächen von Data Lakes (fehlende Governance) und Data Warehouses (hohe Kosten, Inflexibilität) und gelten als Zukunftslösung für die zentrale Datenhaltung und -analyse.
Kernkonzept Lakehouse
- Ein Data Lakehouse speichert strukturierte, unstrukturierte und semistrukturierte Daten kostengünstig in einem zentralen Speicher.
- Gleichzeitig bietet es Datenverwaltungsfunktionen und ermöglicht strukturierte Abfragen.
Vorteile Lakehouse
- Kosteneffizienz: Durch die Nutzung kostengünstiger Cloud-Objektspeicher sind Data Lakehouses günstiger im Betrieb als Data Warehouse.
- Streaming: Es werden Echtzeit-Datenströme unterstützt und ermöglichen Echtzeit-Analysen.
- Offene Dateiformate: Die meisten Data-Lakehouse-Strukturen basieren auf Open-Source-Formaten wie Delta Lake, Apache Iceberg und Apache Hudi.
- Geringere Datenredundanz: Durch die einheitliche Datenspeicherung werden Datenbewegungen zwischen verschiedenen Systemen minimiert.
- Schema-Enforcement und Data Governance: Data Lakehouses adressieren typische Data-Governance-Herausforderungen von Data Lakes, indem sie definierte Schemata bei der Datenerfassung erzwingen.
- Getrennte Speicher und Verarbeitung: Die Architektur entkoppelt Speicher und Verarbeitung, um Skalierbarkeit für verschiedene Workloads zu gewährleisten.
- Transaktionsunterstützung: ACID-Transaktionen (Atomicity, Consistency, Isolation, Durability) sorgen für Konsistenz bei gleichzeitigem Lesen oder Schreiben von Daten durch mehrere Nutzer (häufig auf SQL-Basis).
Architektur Lakehouse
- Speicher-Layer: Hier werden alle Rohdaten kostengünstig in einem Object Storage abgelegt (unabhängig von Verarbeitungsressourcen).
- Staging-Layer: Dieser fungiert als Metadaten-Hub und katalogisiert die gespeicherten Datenobjekte. Er ermöglicht wesentliche Datenverwaltungsfunktionen wie Schema-Enforcement, ACID-Eigenschaften, Indizierung, Caching und Zugriffskontrolle.
- Semantik-Layer: An der Spitze der Architektur befindet sich der Lakehouse-Layer. Hier werden die Daten für Benutzerinteraktionen durch Client-Anwendungen und Analyse-Tools zugänglich gemacht (Experimente und Business Intelligence).
Anbieter Lakehouse
Snowflake Apache Iceberg - https://www.snowflake.com/en/data-cloud/snowflake-for-data-lakehouse/
Google Biglake - https://cloud.google.com/biglake?hl=en Weitere Information https://research.google/pubs/biglake-bigquerys-evolution-toward-a-multi-cloud-lakehouse/
Lass uns die richtige Lösung gemeinsam finden.
Thomas Borlik
Du hast Fragen zuLakehouse?
Passende Case Studies
Zu diesem Thema gibt es passende Case Studies
Folge uns auf LinkedIn
Bleibe auf LinkedIn immer auf dem neuesten Stand zur spannenden Welt der Daten und zu unserem Team.