Cookie Einstellungen

Durch Klicken auf "Zustimmen" stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Weitere Informationen finden Sie in unseren Datenschutzbestimmungen.

Blog

Garbage In, Garbage Out

7 kritische Dimensionen der Datenqualität: Konsistenz, Vollständigkeit, Genauigkeit, Eindeutigkeit, Aktualität, Gültigkeit und Data Governance. Lösungen für jedes Problem und Implementierungsstrategien.
von
Michael Hauschild
25.3.2025 10:00
8
Minuten Lesedauer
Share this post
Datenqualität auf Laptop mit Dashboard

In meinem letzten Beitrag haben wir über die strategische Verankerung von Daten im Medienunternehmen gesprochen. Heute widmen wir uns einem Thema, das mir in meiner täglichen Arbeit mit Verlagen immer wieder begegnet: Datenqualität und -integration. Der folgende Fall aus meiner Beratungspraxis verdeutlicht die Problematik.

"Wir haben alle Daten, aber keine Antworten"

Vor einigen Monaten rief mich der Digitalchef eines mittelgroßen Regionalverlags an. Seine Stimme klang frustriert: "Michael, wir haben seit Jahren in digitale Transformation investiert. Wir haben Analytics-Tools, ein CRM-System, Social Media Monitoring und ein modernes CMS. Trotzdem fällt es uns schwer, auf einfache Fragen klare Antworten zu bekommen."

Die konkrete Frage, die ihn umtrieb: Welche Content-Kategorien führen tatsächlich zu Abonnement-Abschlüssen? Eine vermeintlich simple Frage, deren Beantwortung jedoch scheiterte – nicht wegen fehlender Daten, sondern wegen mangelhafter Datenqualität und -integration.

Die strategische Dimension der Datenqualität

Diese Situation ist typisch für viele Medienhäuser. Sie haben zwar Daten, aber keine qualitativ hochwertigen, integrierten Daten, die als verlässliche Entscheidungsgrundlage dienen können. In Zeiten von KI und Machine Learning gewinnt dieses Problem eine neue Dringlichkeit.
Die alte Programmierer-Weisheit "Garbage In, Garbage Out" bekommt im KI-Zeitalter eine noch größere Bedeutung. Selbst der intelligenteste Algorithmus kann aus fehlerhaften oder unvollständigen Daten keine wertvollen Erkenntnisse gewinnen. Wenn Ihr ChatGPT-Assistent mit unzureichenden redaktionellen Daten gefüttert wird, entstehen bestenfalls mittelmäßige Ergebnisse – im schlimmsten Fall irreführende.

In unseren Projekten sehen wir als Beratungsteam immer wieder, dass Datenqualität und -integration keine technischen Nebenschauplätze sind, sondern geschäftskritische Faktoren:

  • Sie bestimmen, wie schnell und fundiert strategische Entscheidungen getroffen werden können
  • Sie entscheiden darüber, wie präzise Content und Angebote personalisiert werden können
  • Sie bilden die Grundlage für Automatisierungspotenziale in redaktionellen und kommerziellen Prozessen
  • Sie sind unverzichtbar für erfolgreiche KI-Anwendungen, von Content-Empfehlungen bis zur Leser-Churn-Prognose

Das Integrationsproblem: Wenn Systeme nicht miteinander sprechen können

Zurück zu unserem Regionalverlag: Bei näherer Untersuchung zeigte sich ein für die Branche typisches Bild. Das Unternehmen nutzte:

  • Ein CMS für die Erstellung und Verwaltung redaktioneller Inhalte
  • Ein CRM-System für die Verwaltung von Abonnements
  • Google Analytics zur Messung der Website-Nutzung
  • Ein separates Anzeigenmanagementsystem
  • Diverse Tools für Social Media und Newsletter-Marketing

Jedes dieser Systeme war für sich genommen funktional. Das Problem: Sie waren zu unterschiedlichen Zeiten eingeführt worden, von verschiedenen Anbietern und – das ist entscheidend – mit eigenen Datenmodellen und Identifikationsschlüsseln.
Die Integrationsprobleme waren vielfältig:

  • Das CMS verwendete Content-IDs, die in keinem Zusammenhang mit den Tracking-Parametern in Analytics standen
  • Die Nutzer-IDs im CRM hatten keine Verbindung zu den Cookie-IDs der Webseite
  • Manche Systeme lieferten Daten in Echtzeit, andere nur in täglichen Batches
  • Bei älteren Systemen fehlten moderne APIs für den automatisierten Datenaustausch

Die Konsequenzen waren gravierend:

Enormer manueller Aufwand: Die zwei Datenanalysten des Verlags verbrachten etwa 70% ihrer Zeit mit dem Sammeln, Bereinigen und Zusammenführen von Daten aus verschiedenen Quellen – Zeit, die für wertschöpfende Analysen fehlte.

Fehlerhafte Analysen: Ein besonders ärgerlicher Fall trat auf, als die Geschäftsführung Entscheidungen auf Basis von Nutzungszahlen traf, die sich später als fehlerhaft herausstellten – weil die Daten aus dem CMS und aus Google Analytics unzureichend abgeglichen waren.

Verzögerte Entscheidungen: Die Entwicklung neuer redaktioneller Formate oder Paywallstrategien verzögerte sich regelmäßig, weil die Zusammenführung und Analyse der erforderlichen Daten zu zeitaufwändig war.

In der schnelllebigen Medienbranche, wo die zeitnahe Reaktion auf Marktveränderungen entscheidend ist, bedeuten solche Verzögerungen einen erheblichen Wettbewerbsnachteil.

Die Lösung: Zentrale Datenspeicher als Fundament der Datenstrategie

Nach einer gründlichen Analyse empfahl unser Team dem Verlag die Implementierung eines zentralen Datenspeichers als Herzstück seiner Datenstrategie. Gemeinsam entschieden wir uns für eine Kombination aus Data Lake und Data Warehouse:

  • Der Data Lake dient als Sammelbecken für alle Rohdaten aus den verschiedenen Quellsystemen, unabhängig von Format oder Struktur. Hier werden auch unstrukturierte Daten wie Nutzerkommentare oder Social-Media-Interaktionen gespeichert.
  • Das darauf aufbauende Data Warehouse bietet strukturierte, aufbereitete Datensichten für spezifische Anwendungsfälle und regelmäßige Reports.

Die Implementierung erfolgte schrittweise über sechs Monate, beginnend mit der Integration der zwei geschäftskritischsten Systeme: CMS und CRM. Schon dieser erste Schritt ermöglichte es, die ursprüngliche Frage zu beantworten: Welche Content-Kategorien führen zu Abonnement-Abschlüssen?

Die Ergebnisse waren teilweise überraschend: Entgegen der Annahme des Chefredakteurs waren es nicht die aufwändigen Investigativrecherchen, die am stärksten zu Conversions beitrugen, sondern lokale Nutzwertthemen wie "Die besten Schulen der Region" oder "Neue Fahrradwege im Landkreis".

Abstrakte Form eines Pfades

Keinen Blogpost verpassen?

Einfach den Newsletter abonnieren

Data News für Pros

Du willst mehr wissen? Dann abonnier doch unseren Newsletter! Regelmäßige News aus der Data-Welt rund um neue Entwicklungen, Tools, Best Practices und Events!

Abstrakte Form eines Pfades des Data Institute

Keinen Blogpost verpassen?

Einfach den Newsletter abonnieren

Abstrakter Pfad des Data Institutes

Die 7 kritischen Dimensionen der Datenqualität und ihre Lösungen

Aus unserer Praxiserfahrung mit Dutzenden von Medienkunden haben wir die zentralen Datenqualitätsprobleme identifiziert und bewährte Lösungsansätze entwickelt. Diese Probleme lassen sich in sieben kritische Dimensionen der Datenqualität einordnen:

Konsistenz: Wenn Systeme widersprüchliche Informationen liefern

Problem: Ein Nutzer existiert in verschiedenen Systemen mit unterschiedlichen Identifikatoren und Attributen. Bei einem Regionalverlag fanden wir Kunden, die im CRM als aktive Abonnenten geführt wurden, während das Paywall-System sie als Nicht-Abonnenten behandelte.
Lösung: Implementieren Sie ein zentrales Identitätsmanagement-System, das als "Single Source of Truth" dient. Eine moderne Customer Data Platform (CDP) kann Nutzeridentitäten über verschiedene Touchpoints hinweg zusammenführen. Bei einem überregionalen Verlag half uns die Einführung eines zentralen ID-Matchings, die Conversion-Rate um 23% zu steigern.

Vollständigkeit: Die Lücken in Ihren Daten finden und schließen

Problem: Unvollständige Daten manifestieren sich in vielen Formen: Artikel ohne ausreichende Metadaten, lückenhafte Customer Journeys oder fehlende Attribute in Nutzerprofilen. Bei einem Fachverlag stellten wir fest, dass bei über 40% der Artikel die Themenkategorisierung fehlte, was die Personalisierung massiv einschränkte.
Lösung: Definieren Sie verbindliche Mindeststandards für verschiedene Datentypen und automatisieren Sie deren Erfassung. Moderne KI-Systeme können beispielsweise automatisch Content taggen und kategorisieren. Implementieren Sie Validierungsregeln, die unvollständige Datensätze entweder abweisen oder markieren.

Genauigkeit: Wenn falsche Daten zu falschen Entscheidungen führen

Problem: Ungenaue oder schlicht falsche Daten führen direkt zu Fehlentscheidungen. Ein Magazin-Publisher traf strategische Entscheidungen auf Basis von Analytics-Daten, die aufgrund fehlerhafter Tracking-Implementierung 30% zu niedrige Nutzungszahlen für die mobile App auswiesen.
Lösung: Etablieren Sie systematische Datenvalidierungsprozesse und Cross-Checks zwischen verschiedenen Systemen. Automatisierte Plausibilitätsprüfungen können viele Fehler frühzeitig erkennen. Bei besonders kritischen Daten empfehlen wir regelmäßige Stichprobenprüfungen durch Experten.

Eindeutigkeit: Das Problem duplizierter Datensätze

Problem: Doppelte Datensätze verzerren Analysen und führen zu falschen Geschäftsentscheidungen. Bei einem Medienhaus fanden wir in der Kundendatenbank über 15% Duplikate, was die Churn-Prognosen erheblich verfälschte – einige Kunden wurden fälschlicherweise als verloren eingestuft, weil sie unter einem anderen Profil aktiv waren.
Lösung: Implementieren Sie robuste Deduplizierungsverfahren, die sowohl exakte als auch fuzzy-matching Techniken nutzen. Moderne MDM-Systeme (Master Data Management) können selbst bei leicht abweichenden Schreibweisen oder unvollständigen Datensätzen Duplikate identifizieren. Wichtig ist auch die Prävention: Schaffen Sie einheitliche Eingabemasken und Validierungsregeln.

Aktualität: Wenn veraltete Daten zu späten Reaktionen führen

Problem: Veraltete Daten sind oft genauso problematisch wie fehlende Daten. Ein Nachrichtenportal erkannte mit zwei Wochen Verzögerung einen signifikanten Einbruch der Nutzerengagement-Raten, weil die Datenaktualisierungsprozesse nur monatlich liefen.
Lösung: Definieren Sie für verschiedene Datentypen angemessene Aktualitätsanforderungen. Kritische KPIs sollten in Echtzeit oder zumindest täglich aktualisiert werden. Implementieren Sie Monitoring-Systeme, die veraltete Datensätze automatisch identifizieren und entsprechende Warnungen auslösen.

Gültigkeit: Wenn Daten nicht den erwarteten Formaten entsprechen

Problem: Ungültige Datenformate oder Werte außerhalb definierter Bereiche können Systeme zum Absturz bringen oder fehlerhafte Berechnungen verursachen. Bei einem Kunden führten falsch formatierte Datumsangaben zu völlig verzerrten Trendanalysen, da das System statt des europäischen das amerikanische Datumsformat erwartete.
Lösung: Implementieren Sie strenge Validierungsregeln an allen Dateneingabepunkten. Nutzen Sie Schema-Validierung für strukturierte Daten und definieren Sie klare Konventionen für Formate und Wertebereiche. Besonders wichtig: Standardisieren Sie kritische Formate wie Datums- und Zeitangaben unternehmensweit.

Data Governance: Der organisatorische Rahmen für Datenqualität

Problem: Ohne klare Verantwortlichkeiten und Prozesse bleibt Datenqualität ein unlösbares Problem. Bei einem großen Medienhaus beobachteten wir, wie dieselben Datenqualitätsprobleme immer wieder auftraten, weil niemand sich verantwortlich fühlte.
Lösung: Etablieren Sie ein Data-Governance-Framework mit klar definierten Rollen wie Data Owner und Data Stewards. Entwickeln Sie verbindliche Richtlinien für die Datenerfassung, -speicherung und -nutzung. Führen Sie regelmäßige Datenqualitäts-Audits durch und machen Sie Datenqualität zu einem gemessenen Leistungsindikator – etwa durch ein Datenqualitäts-Dashboard für die Geschäftsführung.

Implementierungsstrategien: Der pragmatische Weg zur Datenintegration

Die größte Herausforderung bei der Verbesserung von Datenqualität und -integration ist oft nicht die Technologie, sondern der Weg dorthin. Aus unseren gemeinsamen Projekten kann ich vier bewährte Strategien empfehlen:

1. Schrittweise Implementation statt "Big Bang"

Beginnen Sie mit einem begrenzten, aber geschäftskritischen Anwendungsfall. Bei unserem Regionalverlag war dies die Verbindung von Content-Nutzung und Abonnementabschlüssen. Demonstrieren Sie frühe Erfolge und nutzen Sie diese, um weitere Investitionen zu rechtfertigen.

2. Pragmatischer Umgang mit Legacy-Systemen

Die Realität in vielen Medienhäusern: Es gibt Altsysteme, die nicht kurzfristig ersetzt werden können. Statt auf die perfekte Zukunftslösung zu warten, entwickeln Sie Adapter-Lösungen für schwer ersetzbare Systeme und definieren Sie parallel eine klare Migrationsstrategie.

3. Agile Methoden für Datenintegrationsprojekte

Datenintegrationsprojekte sollten iterativ entwickelt werden, mit regelmäßigen Zwischenversionen und enger Einbindung der Fachbereiche. Bei einem Kunden hat unser Beratungsteam wöchentliche "Data Reviews" etabliert, in denen die Fortschritte und nächsten Schritte mit allen Stakeholdern besprochen wurden.

4. Cloud-basierte Lösungen als Einstieg

Besonders für mittelständische Verlage mit begrenzten IT-Ressourcen bieten Cloud-Lösungen einen kostengünstigen und schnellen Einstieg in die Datenintegration. Sie ermöglichen eine schnelle Implementierung ohne umfangreiche Hardware-Investitionen und bieten Zugang zu fortschrittlichen Analyse-Tools.

Fazit: Datenqualität ist eine strategische Investition

Sechs Monate nach der Implementierung des zentralen Datenspeichers konnte unser Regionalverlag beeindruckende Ergebnisse vorweisen:

  • Die Zeit für die Erstellung regelmäßiger Reports reduzierte sich um 65%
  • Die Conversion-Rate für Digital-Abonnements stieg um 28% durch gezieltere Content-Strategien
  • Die Kündigungsrate sank um 15% durch besseres Verständnis von Nutzerverhalten und präventive Maßnahmen

Diese Ergebnisse unterstreichen: Hochwertige, integrierte Daten sind keine technische Spielerei, sondern das Fundament für den Geschäftserfolg im digitalen Zeitalter. Medienhäuser, die in diese Grundlagen investieren, schaffen die Voraussetzungen für:

  • Fundierte strategische Entscheidungen auf Basis ganzheitlicher Daten
  • Schnellere Reaktionen auf Marktveränderungen und Nutzerverhalten
  • Effizientere Prozesse durch Automatisierung und Standardisierung
  • Neue datengetriebene Produkte und Geschäftsmodelle

In meinem nächsten Beitrag werden wir darauf eingehen, wie diese hochwertigen, integrierten Daten konkret für ein tieferes Kundenverständnis und eine datengetriebene Produktentwicklung genutzt werden können. Bis dahin freue ich mich auf Ihre Kommentare und Erfahrungen zum Thema Datenqualität!

Michael Hauschild ist Datenexperte und Co-Founder von The Data Institute. Er berät mit seinem Team seit vielen Jahren Medienunternehmen bei der digitalen Transformation. Dieser Artikel basiert auf Erfahrungen aus zahlreichen gemeinsamen Praxisprojekten und einem Kapitel des kommenden Buches "Daten als strategischer Kompass für Medienhäuser".

Photo by Alina Grubnyak on Unsplash

Welche Leistungen passen zu diesem Thema
?

<svg width=" 100%" height=" 100%" viewBox="0 0 62 62" fill="none" xmlns="http://www.w3.org/2000/svg"> <g clip-path="url(#clip0_5879_2165)"> <path d="M21.3122 46.5H40.6872V50.375H21.3122V46.5ZM25.1872 54.25H36.8122V58.125H25.1872V54.25ZM30.9997 3.875C25.8611 3.875 20.933 5.91629 17.2995 9.54981C13.666 13.1833 11.6247 18.1114 11.6247 23.25C11.4937 26.0658 12.0331 28.8726 13.1985 31.4392C14.364 34.0059 16.1222 36.2592 18.3285 38.0138C20.266 39.8156 21.3122 40.8425 21.3122 42.625H25.1872C25.1872 39.06 23.0366 37.0644 20.9441 35.1462C19.1332 33.7595 17.69 31.9499 16.7408 29.8759C15.7917 27.802 15.3655 25.5269 15.4997 23.25C15.4997 19.1391 17.1327 15.1967 20.0396 12.2898C22.9464 9.38303 26.8889 7.75 30.9997 7.75C35.1106 7.75 39.0531 9.38303 41.9599 12.2898C44.8667 15.1967 46.4997 19.1391 46.4997 23.25C46.6317 25.5286 46.2025 27.8047 45.2499 29.8788C44.2973 31.9529 42.8504 33.7616 41.036 35.1462C38.9628 37.0837 36.8122 39.0213 36.8122 42.625H40.6872C40.6872 40.8425 41.7141 39.8156 43.671 37.9944C45.8757 36.2428 47.6331 33.9929 48.7986 31.4295C49.964 28.8662 50.5042 26.0628 50.3747 23.25C50.3747 20.7056 49.8736 18.1862 48.8999 15.8355C47.9262 13.4848 46.499 11.3489 44.6999 9.54981C42.9008 7.75067 40.7649 6.32352 38.4142 5.34983C36.0635 4.37615 33.5441 3.875 30.9997 3.875Z" fill="currentColor"/> </g> <defs> <clipPath id="clip0_5879_2165"> <rect width="62" height="62" fill="currentColor"/> </clipPath> </defs> </svg>

Data Strategy

Wann passiert was wie und warum – das erklärt die Datenstrategie.

<svg width=" 100%" height=" 100%" viewBox="0 0 62 62" fill="none" xmlns="http://www.w3.org/2000/svg"> <g clip-path="url(#clip0_5879_2976)"> <path d="M60.0625 58.125H56.1875V52.3125C56.1875 50.7709 55.5751 49.2925 54.4851 48.2024C53.395 47.1124 51.9166 46.5 50.375 46.5H42.625C41.0834 46.5 39.605 47.1124 38.5149 48.2024C37.4249 49.2925 36.8125 50.7709 36.8125 52.3125V58.125H32.9375V52.3125C32.9375 49.7432 33.9581 47.2792 35.7749 45.4624C37.5917 43.6456 40.0557 42.625 42.625 42.625H50.375C52.9443 42.625 55.4083 43.6456 57.2251 45.4624C59.0419 47.2792 60.0625 49.7432 60.0625 52.3125V58.125ZM46.5 23.25C47.6496 23.25 48.7734 23.5909 49.7293 24.2296C50.6851 24.8683 51.4301 25.7761 51.87 26.8382C52.31 27.9002 52.4251 29.0689 52.2008 30.1965C51.9765 31.324 51.423 32.3597 50.6101 33.1726C49.7972 33.9855 48.7615 34.539 47.634 34.7633C46.5065 34.9876 45.3377 34.8725 44.2757 34.4326C43.2136 33.9926 42.3058 33.2476 41.6671 32.2917C41.0284 31.3359 40.6875 30.2121 40.6875 29.0625C40.6875 27.5209 41.2999 26.0425 42.3899 24.9524C43.48 23.8624 44.9584 23.25 46.5 23.25ZM46.5 19.375C44.584 19.375 42.711 19.9432 41.1179 21.0076C39.5248 22.0721 38.2831 23.5851 37.5499 25.3553C36.8167 27.1254 36.6248 29.0732 36.9986 30.9524C37.3724 32.8316 38.2951 34.5578 39.6499 35.9126C41.0047 37.2674 42.7309 38.1901 44.6101 38.5639C46.4893 38.9377 48.4371 38.7458 50.2072 38.0126C51.9774 37.2794 53.4904 36.0377 54.5549 34.4446C55.6193 32.8515 56.1875 30.9785 56.1875 29.0625C56.1875 26.4932 55.1669 24.0292 53.3501 22.2124C51.5333 20.3956 49.0693 19.375 46.5 19.375ZM29.0625 42.625H25.1875V36.8125C25.1875 35.2709 24.5751 33.7925 23.4851 32.7024C22.395 31.6124 20.9166 31 19.375 31H11.625C10.0834 31 8.605 31.6124 7.51494 32.7024C6.42489 33.7925 5.8125 35.2709 5.8125 36.8125V42.625H1.9375V36.8125C1.9375 34.2432 2.95814 31.7792 4.7749 29.9624C6.59166 28.1456 9.05572 27.125 11.625 27.125H19.375C21.9443 27.125 24.4083 28.1456 26.2251 29.9624C28.0419 31.7792 29.0625 34.2432 29.0625 36.8125V42.625ZM15.5 7.75C16.6496 7.75 17.7734 8.0909 18.7293 8.72958C19.6851 9.36827 20.4301 10.2761 20.8701 11.3382C21.31 12.4002 21.4251 13.5689 21.2008 14.6965C20.9765 15.824 20.423 16.8597 19.6101 17.6726C18.7972 18.4855 17.7615 19.039 16.634 19.2633C15.5064 19.4876 14.3377 19.3725 13.2757 18.9326C12.2136 18.4926 11.3058 17.7476 10.6671 16.7918C10.0284 15.8359 9.6875 14.7121 9.6875 13.5625C9.6875 12.0209 10.2999 10.5425 11.3899 9.45244C12.48 8.36239 13.9584 7.75 15.5 7.75ZM15.5 3.875C13.584 3.875 11.711 4.44316 10.1179 5.50764C8.52481 6.57211 7.28314 8.08509 6.54992 9.85525C5.81669 11.6254 5.62485 13.5732 5.99864 15.4524C6.37244 17.3316 7.29508 19.0578 8.6499 20.4126C10.0047 21.7674 11.7309 22.6901 13.6101 23.0639C15.4893 23.4377 17.4371 23.2458 19.2072 22.5126C20.9774 21.7794 22.4904 20.5377 23.5549 18.9446C24.6193 17.3515 25.1875 15.4785 25.1875 13.5625C25.1875 10.9932 24.1669 8.52916 22.3501 6.7124C20.5333 4.89564 18.0693 3.875 15.5 3.875Z" fill="currentColor"/> </g> <defs> <clipPath id="clip0_5879_2976"> <rect width="62" height="62" fill="currentColor"/> </clipPath> </defs> </svg>

Prozess- & Kulturentwicklung

Für Prozesse und eine Kultur, die gemeinsam alles möglich macht.

Abstrakte Form eines Pfades

Follow on LinkedIn

Don't miss out on updates and insights

Data News für Pros

Du willst mehr wissen? Dann abonnier doch unseren Newsletter! Regelmäßige News aus der Data-Welt rund um neue Entwicklungen, Tools, Best Practices und Events!

Abstrakte Form eines Pfades des Data Institute

Follow on LinkedIn

Don't miss out on updates and insights

Abstrakter Pfad des Data Institutes