Big Data ist kein heiliger Gral, aber auch kein heißer Luftballon. Es ist Handwerk. Wer Daten klug sammelt, aufbereitet und mit brauchbaren Modellen verbindet, holt echten Wert heraus. Wer es bei Buzzwords belässt, verbrennt Zeit und Budget.
Was ist Big Data?
Wenn ich in einer Runde von Onlinehändlern „Big Data“ sage, gibt’s meist zwei Reaktionen:
- Messias-Blick: „Endlich löst das mal alles.“
- Augenrollen: „Bullshit-Bingo.“
Beides kann ich verstehen. Der Begriff wird seit Jahren durch die Medien gejagt. Konkrete Anleitungen fehlen oft. Dabei heißt Big Data im Kern: Entscheidungen datenbasiert treffen, nicht aus dem Bauch. Heute fällt dafür gern der Modebegriff data-driven.
Big Data – eine Definition, die trägt
Historisch hat Doug Laney Big Data als Dreiklang aus Volume, Velocity und Variety beschrieben. Später kam als vierte Dimension Veracity dazu, also die Vertrauenswürdigkeit der Daten. Manche ergänzen noch Value, weil ohne Geschäftsnutzen alles nichts ist. Das ist bis heute ein brauchbarer Rahmen.[1][2]
Volume
Das Datenvolumen wächst weiter rasant. Seriöse, aktuelle Größenordnung: weltweit rund 149 Zettabyte erzeugt, erfasst, kopiert und konsumiert im Jahr 2024; bis 2028 werden über 394 Zettabyte erwartet. Quelle ist die ITU, die sich hier auf IDC stützt. Alte EMC-Prognosen bis 2020 sind damit Geschichte und sollten nicht mehr zitiert werden.[3]
Velocity
Daten strömen in Echtzeit: Logfiles, App-Events, Zahlungen, Sensorwerte, Video. Für Händler heißt das: Systeme brauchen Streaming- oder Near-Real-Time-Fähigkeiten, sonst schaut man nur in den Rückspiegel.[4]
Variety
Neben strukturierten Tabellendaten kommen Texte, Bilder, Audio, Clickstreams, halbstrukturierte Formate wie JSON dazu. Klassische SQL-only-Denke reicht da nicht mehr. Data Lakes und flexible Schemata sind Standard.[2]
Veracity
Mehr Daten bedeuten nicht automatisch bessere Daten. Unschärfen, Bias, Lücken: alles normal. Wichtig ist, damit bewusst umzugehen und Modelle sowie Prozesse darauf auszurichten.[4]
Wozu sammelt man die ganzen Daten?
Weil Machine Learning und KI ohne Futter nichts taugen. Ein sauberes Datenfundament plus clevere Modelle bringen messbaren Effekt: bessere Produktempfehlungen, höhere Conversion, saubere Prognosen, weniger Retouren.
Amazon ist dafür ein Dauerbeispiel. Deren Empfehlungssysteme sind seit zwei Jahrzehnten ein Umsatztreiber und wurden technisch offen beschrieben. Das ist kein Mythos, sondern dokumentierte Praxis.[5][6]
Was ist das Ziel von Big Data?
Kunden verstehen und Reibung rausnehmen. Amazons „Start with the customer and work backwards“ funktioniert nur, wenn man das Verhalten wirklich kennt. Das geht granular bis auf Personen- und Sessionebene, natürlich im Rahmen von Recht und Einwilligung.[5]
Auch Meta (Facebook, Instagram) personalisiert Feeds über Ranking-Modelle. Meta erklärt inzwischen offen, dass viele KI-Modelle zusammenarbeiten, um Inhalte zu gewichten und auszuliefern. Das ist für Händler relevant, weil eure Inhalte gegen Milliarden anderer Beiträge um Aufmerksamkeit konkurrieren.[7][8]
Und ja: Aus Digitalspuren lassen sich heikle Merkmale ableiten. Wissenschaftlich belegt ist, dass sich aus Facebook-Likes sensible Attribute mit hoher Genauigkeit vorhersagen lassen. Das zeigt das Potenzial, aber auch die Verantwortung im Umgang mit Daten.[9]
Erfolgsbeispiel Target
Berühmt-berüchtigt: Targets Kampagnen für werdende Mütter. Die Vorgeschichte wurde 2012 detailliert im New York Times Magazine aufgeschrieben. Vereinfacht: Aus Einkaufsprofilen und registrierten Terminen entstanden Scores, um passende Angebote auszuspielen. Der Case ging viral, weil ein Vater erst durch Werbung von der Schwangerschaft seiner Tochter erfuhr. Ob jede Anekdote exakt so passiert ist, lässt sich heute nicht lückenlos prüfen. Der Kernpunkt bleibt: Muster in Daten verraten Lebensphasen und Kaufbedarfe. Nutzt man das, braucht es Fingerspitzengefühl und klare Grenzen.[10]
Erfolgsbeispiel Netflix
Netflix nutzt Big Data massiv für Personalisierung und Produktempfehlungen. Der wirtschaftliche Effekt der Recommender ist gut dokumentiert. Oft wird außerdem erzählt, House of Cards sei mithilfe von Zuschaueranalysen (Vorliebe für Polit-Serien, Kevin Spacey, David Fincher) kalkuliert worden. Medienberichte legen das nahe, auch wenn Netflix die Geschichte nie in allen Details offiziell durchdekliniert hat. Wichtig ist: Content- und Produktentscheidungen werden dateninformiert getroffen, nicht blind per Bauchgefühl.[11][12]
Die Grenzen von Big Data: Google Flu Trends
Google Flu Trends war ein früher Big-Data-Shootingstar. Anfangs schien der Dienst Grippewellen schneller zu erkennen als offizielle Meldesysteme. Später überschätzte das Modell die Fallzahlen deutlich, unter anderem, weil Suchverhalten durch Medienangst hochging. 2015 wurde der Dienst eingestellt. Lehre für den Handel: Datenquellen und Modelle regelmäßig gegen Realwelt-Feedback kalibrieren, sonst laufen Algorithmen in die Irre.[13][14][15]
Wichtiger Hinweis: Google Flu Trends ist seit August 2015 abgeschaltet. Wer heute Vergleichszahlen zitiert, sollte das deutlich kennzeichnen.[14]
Was bedeutet Big Data für dich als Onlinehändler?
Weg von Meinungen, hin zu Messbarkeit. Jede Interaktion erzeugt Signale: Suche, Produktaufrufe, Warenkorb, Checkout, Rücksendung, Supportkontakt. Baue dir ein Datenfundament, das diese Punkte zusammenführt. Starte mit klaren Use Cases: bessere Empfehlungen im Shop, saubere Nachfrageprognosen, dynamische Sortimente, gezieltere Retention. Behalte die Veracity im Blick, dokumentiere Datenherkunft und Einwilligungen, und messe den Value deiner Modelle wie jede andere Investition.
Quellen
[1] GovLoop: Doug Laney über die 3V-Definition (2001) und ihre Herkunft. Link
[2] IBM: What is Big Data? (5 Vs). Link
[3] ITU State of Broadband 2025: globale Datenmengen 2024/2028 (nach IDC). Link
[4] IBM: Big Data Analytics – Rolle von Veracity, Streaming, Tools. Link
[5] Amazon Science: Two decades of recommender systems at Amazon.com. Link
[6] IEEE Xplore: Amazon.com recommendations: Item-to-Item Collaborative Filtering (2003). Link
[7] Meta Newsroom DE: Wie KI beeinflusst, was Menschen auf Facebook und Instagram sehen (2023). Link
[8] Engineering at Meta: Inside Facebook’s video delivery system (2024). Link
[9] PNAS (Kosinski/Stillwell/Graepel 2013): Private traits and attributes are predictable from digital records of behavior. Link
[10] New York Times Magazine (2012): How Companies Learn Your Secrets (Target-Case). Link
[11] ACM TOMS (Gomez‑Uribe/Hunt 2015): The Netflix Recommender System: Algorithms, Business Value, and Innovation. Link
[12] The Guardian (2014): Netflix gathers detailed viewer data to guide commissioning; House of Cards. Link
[13] Science/AAAS (2014) via Harvard: The Parable of Google Flu: Traps in Big Data Analysis. Link
[14] FierceHealthcare (2015): Google Flu Trends site shuts down. Link
[15] Scientific Reports (2019): Accurate regional influenza epidemics tracking using Internet search data (GFT eingestellt, methodische Weiterentwicklung). Link