Cookie Einstellungen

Durch Klicken auf "Zustimmen" stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Weitere Informationen finden Sie in unseren Datenschutzbestimmungen.

Blog

Zu oft gefragt #1: Warum nicht mit Rohdaten arbeiten?

Darüber, weshalb es eine schlechte Idee ist, Fragen direkt anhand der Rohdaten zu beantworten, und wie es besser geht.
von
Mike Kamysz
25.10.2024 16:12
7
Minuten Lesedauer
Share this post

Warum kann ich nicht einfach mit Rohdaten arbeiten?

Eines vorab: Wir lieben es in unserem Job die Probleme unserer Kunden zu lösen, aber manche Fragen, mit denen wir tagaus, tagein konfrontiert werden, hängen uns mittlerweile zu den Ohren raus. Damit wir nicht fünfmal am Tag die gleichen Antworten geben müssen, beantworten wir diese Fragen jetzt einfach in einer praktischen Blog-Serie, auf die wir künftig verweisen können.

Mike Kamysz, Data Engineer bei The Data Institute, und Bo Lemmers, Analytics Engineer bei Xebia, machen den Anfang: "Warum kann ich nicht einfach mit Rohdaten arbeiten?" Oh, wie schön, dass manche noch so unverdorben sind. Klar, ihr seid voller Tatendrang, neugierig, und ihr wollt eure Antworten jetzt. Aber sich ohne Plan auf Rohdaten zu stürzen, das ist in etwa so, wie die Nadel im Heuhaufen zu finden. Mit verbundenen Augen. In einem Schneesturm. Lasst uns also darüber sprechen, weshalb es eine so schlechte Idee ist, und wieso wir viel Zeit damit verbringen, schillernde, strukturierte Datenmodelle zu bauen, die uns vor dem Chaos bewahren.

Der Anreiz mit Rohdaten zu arbeiten: Wo die Leute richtig liegen

Bevor wir uns mit dem großen "No no" der Abfrage von Rohdaten beschäftigen, lasst uns verstehen, weshalb diese Frage gestellt wird. Es wirkt wie eine gute Idee - ihr sitzt auf einer Goldmine von Daten. Wieso solltet ihr nicht direkt darauf zugreifen, in ihrer wahren, unveränderten Form? Hier ist die Überlegung hinter dieser Anfrage:

1. Granularität:

Rohdaten sind die detaillierteste Version eurer Datensets, die jede Transaktion, Interaktion und jedes Event in ihrere reinsten Form enthalten. Wenn ihr eine vollständige, ungefilterte Sicht auf eure Daten braucht - seien es transaktionale Daten, Nutzer-Clicks oder Sensor Logs - dann wirken Rohdaten wie die ultimative Quelle.

2. Flexibilität:

Es gibt kein Schema, das euch einschränkt. Wenn ihr Abfragen auf Rohdaten schreibt, ist es, als hättet ihr eine leere Leinwand zur Verfügung. Ihr könnt Metriken, Dimensionen und Transaktionen aus dem Stegreif erstellen. Keine vordefinierten Logiken oder Geschäftsregeln stehen euch im Weg - es gibt nur euch, euren SQL-Editor, und die Rohdaten.

3. Time to Insight:

Wenn einem eine Frage unter den Nägeln brennt, kann es sich wie eine Ewigkeit anfühlen darauf zu warten, dass das Data-Team eine neue Spalte oder Tabelle zur Datenbank hinzufügt. Warum also den Mittelsmann nicht überspringen? Die Arbeit mit Rohdaten kann den Eindruck eines direkten Weges zum Erkenntnisgewinn erwecken.

Die versteckten Nachteile der Arbeit mit Rohdaten

Kommen wir nun zum Punkt, weshalb Abfragen auf Rohdaten nicht das Gelbe vom Ei sind. Denn hinter dem Vorhang verursacht sie jede Menge Probleme - Probleme, mit denen eure freundlichen Analytics und Data Engineers (Hi, das sind wir!) sich herumschlagen müssen:

Datenqualität: Müll rein, Müll raus

Rohdaten sind unverarbeitet. Und das ist genau das, wonach es sich anhört. Roh, ungekocht, voll von Rauschen, Fehlern und fehlenden Werten. Bevor irgendeine seriöse Analyse vorgenommen werden kann, müssen Rohdaten üblicherweise einen Data Cleaning- und Transformationsprozess durchlaufen. Hier ist die Realität:

1. Inkonsistente Formate

Datumsfelder in unterschiedlichen Formaten, unterschiedliche Einheiten (z.B. Kilogramm vs. Pfund), und inkonsistente Kategorisierungen (z.B. "DE" vs. "Deutschland", oder "DE" vs. "de") sind nur einige wenige Formatierungsprobleme, die sich in Rohdaten tummeln. Jedes Mal, wenn ihr mit Rohdaten arbeitet, riskiert ihr eine fehlerhafte Interpretation oder Aggregierung eurer Ergebnisse.

2. Duplikate oder fehlende Datensätze

Rohdaten leiden häufig unter duplizierten Einträgen oder fehlenden Werten. Ohne einen vernünftigen Prozess, um die Daten zu säubern und zu validieren, werdet ihr den Großteil eurer Zeit damit verbringen, diese Herausforderungen manuell zu lösen, was zu lückenhaften oder schlicht falschen Analysen führt.

Wenn unterschiedliche Teams direkt mit Rohdaten arbeiten, werden diese Inkonsistenzen oft unterschiedlich gehandhabt, was sich folglich in unterschiedlichen Ergebnissen widerspiegelt. Ein Team behandelt fehlende Werte als Null, ein anderes Team ignoriert diese Datensätze vollständig, ein drittes Team verwendet den letzten bekannten Datensatz - und schon hat man ein unterschiedliches Verständnis derselben Datengrundlage geschaffen.

Performance und Kosten: Die versteckte Last

Obwohl das Abfragen von Rohdaten flinker erscheint, sind die versteckten Kosten sowohl auf Performance- als auch auf Kostenseite signifikant, vor allem in Cloud-basierten Umgebungen wie Snowflake, BigQuery usw. Die folgenden Gründe machen die unbedachte Arbeit mit Rohdaten zu einem Performance- und Kosten-Albtraum:

1. Große, nicht optimierte Tabellen

Rohdaten sind in aller Regel umfangreich. Werden unverarbeitete Daten abgefragt, scannt die Datenbank häufig Milliarden von Zeilen und Spalten, obwohl vieles davon für die eigentliche Analyse irrelevant ist.

2. Hohe Kosten für die Cloud

In Cloud Data Warehouses ist jede Abfrage mit Kosten verbunden. Da Rohdaten nicht auf Effizienz getrimmt sind, verbraucht jede Abfrage mehr Rechenleistung als notwendig. Rohdaten aus dem Stegreif zu aggregieren ist ein ressourcenintensiver Prozess, der Kosten über die Zeit in die Höhe treibt.

3. Wiederholte Transformationen

Da Rohdaten über keinerlei vordefinierte Logiken oder Berechnungen verfügen, erfordert jede Abfrage eine Wiederholung komplexer Transformationen wie Joins, Filterungen und Aggregierungen. Das macht Abfragen nicht nur langsamer und teurer, es verschwendet auch wertvolle Rechenzeit damit, dieselben Dinge wieder und wieder zu tun.

Das Rad neu erfinden: Vermehrte Anstrengung, inkonsistente Ergebnisse

Wenn mehrere Teams oder Personen mit Rohdaten arbeiten, erfindet im Grunde jede Partei das Rad neu. Das führt zu erhöhten Aufwänden und inkonsistenten Implementierungen von Geschäftslogiken im Unternehmen. Ohne ein zentrales Datenmodell ist jedes Team gezwungen, eigene Transformationen, Metriken und Berechnungen zu erstellen, was eine Reihe von Problemen mit sich bringt:

1. Mehraufwand

Jedes Team erstellt am Ende eigene Transformationen, um Rohdaten zu säubern und zu aggregieren. Beispielsweise verwendet ein Analyst Stunden darauf, Transformationen zu erstellen, um die monatlichen Umsätze zu berechnen, nur, damit ein anderes Team unabhängig davon das exakt selbe tut. Diese doppelten Aufwände verschwenden Zeit und andere Ressourcen innerhalb der Organisation.

2. Inkonsistente Geschäftslogiken

Ohne standardisierte Metriken, entsteht ein unterschiedliches Verständnis von KPIs in den verschiedenen Teams, beispielsweise zu "Monthly Active Users" oder "Churn Rates". Im besten Fall führt das zu Verwirrung, im schlimmsten Fall zu fehlausgerichteter Entscheidungsfindung, da unterschiedliche Reports widersprüchliche Stories zu denselben Daten erzählen.

Das Argument für ein sauber entworfenes Data Warehouse

Wenn die Abfrage von Rohdaten also so eine schlechte Idee ist, was ist die Alternative? Vorhang auf für das mit Weitsicht entwickelte Data Warehouse, beispielsweise nach einem Kimball- oder Data-Vault Ansatz. Dort werden Rohdaten in ein sauberes, strukturiertes und für Abfragen optimiertes Format gebracht. Statt dass jeder das Rad neu erfindet, bringt das Data Warehouse Ordnung ins Chaos. Aus diesen Gründen ist dieser Ansatz nicht nur hilfreich, sondern essentiell für alle, die Analytics ernsthaft angehen wollen:

Single Source of Truth

Ein zentrales Datenmodell stellt sicher, dass es eine einzige, standardisierte Version der Wahrheit gibt. Metriken, KPIs und Geschäftslogiken sind alle vordefiniert und über alle Abteilungen der Organisation hinweg konsistent. Vorbei sind die Streits darüber welche Version des monatlichen Umsatzreports nun korrekt ist, da alle mit derselben Grundlage arbeiten.

  • Vordefinierte Metriken: In einem Kimball-Style Datenmodell werden wichtige Metriken (bspw. Umsatz oder Kundenzahlen) einmalig definiert und kalkuliert. So wird das Risiko von widersprüchlichen Ergebnissen eliminiert und sichergestellt, dass alle mit denselben Definitionen arbeiten.
  • Zentralisierte Datenlogik: Alle komplexen Geschäftslogiken - zum Beispiel wie wir "aktive Nutzer" oder "Churn" definieren - sind im Datenmodell festgehalten. Das bedeutet, dass Analysten diese Logiken nicht mehr nachbauen müssen, wenn sie Daten abfragen.

Aggregiert und optimiert

In einem Data Warehouse werden Rohdaten in Tabellen transformiert, die für die Abfrage optimiert sind. Beispielsweise existieren in einem Kimball-Style Data Warehouse Faktentabellen, die transaktionale Daten enthalten (z.B. Verkaufstransaktionen), während Dimensionstabellen beschreibende Informationen enthalten (z.B. demographische Daten über Kunden). Dieses Design unterstützt schnelle und effiziente Abfragen.

  • Vorab aggregiert: Daten können schon vorab auf das Niveau gebracht werden, in denen sie am häufigsten verwendet werden - beispielsweise Tages- oder Monatsumsätze. Das bedeutet, dass Analysten nicht jedes Mal Summen oder Durchschnitte über Milliarden von Zeilen berechnen müssen, wenn sie Abfragen schreiben.
  • Für Abfragen optimiert: Dimensions- und Faktentabellen sind darauf ausgelegt, teure Table Scans in der Datenbank zu minimieren. Abfragen, die auf Rohdaten Stunden von Rechenleistung erfordern würden, können so in Sekunden abgehandelt werden.

Sicherung von Datenqualität

Ein grundlegendes Datenmodell sichert die Datenqualität, indem es wie ein Türsteher für saubere, gut strukturierte Daten fungiert. Idealerweise durchläuft es automatisierte Tests und prüft sowohl die Lesbarkeit des Codes, als auch die Zuverlässigkeit der Daten. Dieses Tests helfen dabei Fehler frühzeitig zu erkennen, sichern die Konsistenz und erhalten die Verlässlichkeit. So kann auf Daten und Datenmodell vertraut werden.

Conclusion

Obwohl es manchmal valide Anwendungsfälle für das Abfragen von Rohdaten gibt, etwa im Bereich Data Science, für Validierungszwecke oder andere Nischenfälle, führt es im Umfeld von Analytics zu mehr Problemen, als es löst. Von Problemen bei der Datenqualität und inkonsisten Metriken zu Engpässen in der Performance und unnötig hohen Kosten. Die Lösung? Ein gut strukturiertes, verwaltetes Datenmodell, welches Geschäftslogiken zentralisiert, Datenkonsistenz sichert und die Performance optimiert. Vertraut uns - sobald ihr die Vorteile eines kuratierten Datenmodells erlebt habt, wollt ihr nicht mehr mit Rohdaten arbeiten.

Steht euer Unternehmen gerade vor der Herausforderung Best Practices im Bereich Datenmodellierung zu implementieren? Wir sind hier um zu helfen. Kontaktiere uns und wir melden uns schon bald bei dir.

Abstrakte Form eines Pfades

Folge uns auf LinkedIn

Verpasse keine Updates und Insights

Data News für Pros

Du willst mehr wissen? Dann abonnier doch unseren Newsletter! Regelmäßige News aus der Data-Welt rund um neue Entwicklungen, Tools, Best Practices und Events!

Abstrakte Form eines Pfades des Data Institute

Folge uns auf LinkedIn

Verpasse keine Updates und Insights

Abstrakter Pfad des Data Institutes

Welche Leistungen passen zu diesem Thema
?

<svg width=" 100%" height=" 100%" viewBox="0 0 62 62" fill="none" xmlns="http://www.w3.org/2000/svg"> <g clip-path="url(#clip0_5879_2165)"> <path d="M21.3122 46.5H40.6872V50.375H21.3122V46.5ZM25.1872 54.25H36.8122V58.125H25.1872V54.25ZM30.9997 3.875C25.8611 3.875 20.933 5.91629 17.2995 9.54981C13.666 13.1833 11.6247 18.1114 11.6247 23.25C11.4937 26.0658 12.0331 28.8726 13.1985 31.4392C14.364 34.0059 16.1222 36.2592 18.3285 38.0138C20.266 39.8156 21.3122 40.8425 21.3122 42.625H25.1872C25.1872 39.06 23.0366 37.0644 20.9441 35.1462C19.1332 33.7595 17.69 31.9499 16.7408 29.8759C15.7917 27.802 15.3655 25.5269 15.4997 23.25C15.4997 19.1391 17.1327 15.1967 20.0396 12.2898C22.9464 9.38303 26.8889 7.75 30.9997 7.75C35.1106 7.75 39.0531 9.38303 41.9599 12.2898C44.8667 15.1967 46.4997 19.1391 46.4997 23.25C46.6317 25.5286 46.2025 27.8047 45.2499 29.8788C44.2973 31.9529 42.8504 33.7616 41.036 35.1462C38.9628 37.0837 36.8122 39.0213 36.8122 42.625H40.6872C40.6872 40.8425 41.7141 39.8156 43.671 37.9944C45.8757 36.2428 47.6331 33.9929 48.7986 31.4295C49.964 28.8662 50.5042 26.0628 50.3747 23.25C50.3747 20.7056 49.8736 18.1862 48.8999 15.8355C47.9262 13.4848 46.499 11.3489 44.6999 9.54981C42.9008 7.75067 40.7649 6.32352 38.4142 5.34983C36.0635 4.37615 33.5441 3.875 30.9997 3.875Z" fill="currentColor"/> </g> <defs> <clipPath id="clip0_5879_2165"> <rect width="62" height="62" fill="currentColor"/> </clipPath> </defs> </svg>

Data Strategy

Wann passiert was wie und warum – das erklärt die Datenstrategie.

<svg width=" 100%" height=" 100%" viewBox="0 0 62 62" fill="none" xmlns="http://www.w3.org/2000/svg"> <g clip-path="url(#clip0_5994_7571)"> <path d="M52.3125 46.5C51.4494 46.5039 50.5984 46.7026 49.8228 47.0813L41.4916 38.75H34.875V42.625H39.8854L47.0832 49.8228C46.7043 50.5984 46.505 51.4494 46.5 52.3125C46.5 53.4621 46.8409 54.5859 47.4796 55.5418C48.1183 56.4976 49.0261 57.2426 50.0882 57.6826C51.1502 58.1225 52.3189 58.2376 53.4465 58.0133C54.574 57.789 55.6097 57.2355 56.4226 56.4226C57.2355 55.6097 57.789 54.574 58.0133 53.4465C58.2376 52.319 58.1225 51.1503 57.6825 50.0882C57.2426 49.0261 56.4976 48.1183 55.5417 47.4796C54.5859 46.8409 53.4621 46.5 52.3125 46.5ZM52.3125 54.25C51.9293 54.25 51.5547 54.1364 51.2361 53.9235C50.9175 53.7106 50.6691 53.408 50.5225 53.054C50.3758 52.6999 50.3375 52.3104 50.4122 51.9345C50.487 51.5587 50.6715 51.2135 50.9425 50.9425C51.2134 50.6715 51.5587 50.487 51.9345 50.4122C52.3103 50.3375 52.6999 50.3758 53.0539 50.5225C53.408 50.6691 53.7106 50.9175 53.9235 51.2361C54.1364 51.5547 54.25 51.9293 54.25 52.3125C54.25 52.8264 54.0459 53.3192 53.6825 53.6825C53.3192 54.0459 52.8264 54.25 52.3125 54.25ZM52.3125 25.1875C51.1143 25.1911 49.9465 25.5655 48.9696 26.2593C47.9927 26.9531 47.2546 27.9323 46.8565 29.0625H34.875V32.9375H46.8565C47.2134 33.9395 47.8389 34.8242 48.6646 35.4948C49.4903 36.1653 50.4845 36.5961 51.5384 36.7399C52.5923 36.8837 53.6655 36.735 54.6407 36.3101C55.6158 35.8852 56.4554 35.2005 57.0678 34.3307C57.6801 33.4609 58.0416 32.4396 58.1127 31.3783C58.1838 30.317 57.9618 29.2565 57.471 28.3128C56.9802 27.3691 56.2395 26.5785 55.3297 26.0273C54.42 25.4761 53.3762 25.1856 52.3125 25.1875ZM52.3125 32.9375C51.9293 32.9375 51.5547 32.8239 51.2361 32.611C50.9175 32.3981 50.6691 32.0955 50.5225 31.7415C50.3758 31.3874 50.3375 30.9979 50.4122 30.622C50.487 30.2462 50.6715 29.9009 50.9425 29.63C51.2134 29.359 51.5587 29.1745 51.9345 29.0997C52.3103 29.025 52.6999 29.0633 53.0539 29.21C53.408 29.3566 53.7106 29.605 53.9235 29.9236C54.1364 30.2422 54.25 30.6168 54.25 31C54.25 31.5139 54.0459 32.0067 53.6825 32.37C53.3192 32.7334 52.8264 32.9375 52.3125 32.9375ZM52.3125 3.875C50.7714 3.87654 49.2939 4.48942 48.2041 5.57914C47.1144 6.66887 46.5015 8.1464 46.5 9.6875C46.5066 10.6157 46.738 11.5284 47.1742 12.3477L39.9048 19.375H34.875V23.25H41.4702L49.9953 15.0118C50.7872 15.3571 51.6461 15.5215 52.5096 15.493C53.373 15.4644 54.2193 15.2438 54.9867 14.8469C55.7541 14.4501 56.4234 13.8872 56.9458 13.1991C57.4682 12.511 57.8306 11.715 58.0065 10.8692C58.1825 10.0234 58.1677 9.14899 57.9631 8.30963C57.7585 7.47027 57.3694 6.68709 56.8239 6.01711C56.2785 5.34712 55.5905 4.8072 54.8101 4.43664C54.0297 4.06608 53.1764 3.87421 52.3125 3.875ZM52.3125 11.625C51.9293 11.625 51.5547 11.5114 51.2361 11.2985C50.9175 11.0856 50.6691 10.783 50.5225 10.429C50.3758 10.0749 50.3375 9.68535 50.4122 9.30951C50.487 8.93368 50.6715 8.58845 50.9425 8.31748C51.2134 8.04652 51.5587 7.86199 51.9345 7.78723C52.3103 7.71247 52.6999 7.75084 53.0539 7.89749C53.408 8.04413 53.7106 8.29247 53.9235 8.61109C54.1364 8.92971 54.25 9.3043 54.25 9.6875C54.25 10.2014 54.0459 10.6942 53.6825 11.0575C53.3192 11.4209 52.8264 11.625 52.3125 11.625Z" fill="currentColor"/> <path d="M34.875 11.625H38.75V7.75H34.875C33.7709 7.75369 32.6804 7.99469 31.6775 8.45667C30.6747 8.91866 29.7829 9.59082 29.0625 10.4276C28.3421 9.59082 27.4503 8.91866 26.4475 8.45667C25.4446 7.99469 24.3541 7.75369 23.25 7.75H21.3125C16.6894 7.75513 12.257 9.59393 8.98799 12.863C5.71893 16.132 3.88013 20.5644 3.875 25.1875V36.8125C3.88013 41.4356 5.71893 45.868 8.98799 49.137C12.257 52.4061 16.6894 54.2449 21.3125 54.25H23.25C24.3541 54.2463 25.4446 54.0053 26.4475 53.5433C27.4503 53.0813 28.3421 52.4092 29.0625 51.5724C29.7829 52.4092 30.6747 53.0813 31.6775 53.5433C32.6804 54.0053 33.7709 54.2463 34.875 54.25H38.75V50.375H34.875C33.8476 50.374 32.8626 49.9654 32.1361 49.2389C31.4096 48.5124 31.001 47.5274 31 46.5V15.5C31.001 14.4726 31.4096 13.4876 32.1361 12.7611C32.8626 12.0346 33.8476 11.626 34.875 11.625ZM23.25 50.375H21.3125C18.0545 50.3692 14.9073 49.1916 12.4457 47.0572C9.9841 44.9229 8.37242 41.9743 7.905 38.75H11.625V34.875H7.75V27.125H13.5625C15.1036 27.1235 16.5811 26.5106 17.6709 25.4209C18.7606 24.3311 19.3735 22.8536 19.375 21.3125V17.4375H15.5V21.3125C15.5 21.8264 15.2959 22.3192 14.9325 22.6825C14.5692 23.0459 14.0764 23.25 13.5625 23.25H7.905C8.37242 20.0257 9.9841 17.0771 12.4457 14.9428C14.9073 12.8084 18.0545 11.6308 21.3125 11.625H23.25C24.2774 11.626 25.2624 12.0346 25.9889 12.7611C26.7154 13.4876 27.124 14.4726 27.125 15.5V23.25H23.25V27.125H27.125V34.875H23.25C21.7089 34.8765 20.2314 35.4894 19.1416 36.5791C18.0519 37.6689 17.439 39.1464 17.4375 40.6875V44.5625H21.3125V40.6875C21.3125 40.1736 21.5166 39.6808 21.88 39.3175C22.2433 38.9541 22.7361 38.75 23.25 38.75H27.125V46.5C27.124 47.5274 26.7154 48.5124 25.9889 49.2389C25.2624 49.9654 24.2774 50.374 23.25 50.375Z" fill="currentColor"/> </g> <defs> <clipPath id="clip0_5994_7571"> <rect width="62" height="62" fill="currentColor"/> </clipPath> </defs> </svg>

Machine Learning

Keine Spielerei, sondern echte Wertschöpfung

Abstrakte Form eines Pfades

Bleibe auf dem Laufenden

Abonniere unseren Newsletter.

Data News für Pros

Du willst mehr wissen? Dann abonnier doch unseren Newsletter! Regelmäßige News aus der Data-Welt rund um neue Entwicklungen, Tools, Best Practices und Events!

Abstrakte Form eines Pfades des Data Institute

Bleibe auf dem Laufenden

Abonniere unseren Newsletter.

Abstrakter Pfad des Data Institutes