Wie läuft eigentlich eine typische "Big-Data-Operation" ab?
Der werte Leser, wird in der Zwischenzeit schon bemerkt haben, dass sich während der von mir Enterprise Big Data Workshops, allfällig gestellte Fragen noch immer nicht nach der Technologie, sondern nach Zweck, Nutzen, Aufwand und prozessualen Elementen gefragt wird.
Etwas, was mich selbst zu Beginn verwunderte, später aber ganz und gar nicht mehr. Zum Thema Technologie gab und gibt es schon tonnenweise kluges Material, das von jenen erläutert werden kann, welche auch schon am Thema Technologie interessiert sind. Sponsoren, Serviceowner und Abnehmer von Big Data - Leistungen, wollen aber just mit diesem Teufelszeug nichts zu tun haben, sondern nur einer erreichen: Wissensgewinn!
Gehen wir nun in die prozessuale Ebene. Wie sieht nun der klassische Big Data Prozess aus:

Sie erkennen relativ schnell. Ob es nun Big Data oder Business Intelligence ist, die grundlegenden Muster sind dieselben. Der einzige signifikante Unterschied, bei Big Data kommt es oft zu einem Mix aus strukturierten und unstrukturierten Daten, in seltenen Fällen werden nur unstrukturierte Daten verwendet. Jetzt aber die Sicht, wie sie sich zwischen "Kundenvertreter" und Big Data Center of Excellence darstellt:
Aktivität |
Kunde |
Big Data Center of Excellence |
Auswertungsziel festlegen |
- Definition von Auswertungsauftrag
- Zwecksetzung der Auswertung
- Frist für die Auswertung
- Stellen einer fortlaufenden fachlichen Schnittstelle zum "Auswerter"
- Definieren von "technischen Anschluss-Systemem" zum Anstoss von Entscheidungen, kommerziellen Folgeaktionen etc.
|
- Auswertungsauftrag annehmen
- Ziel festlegen
- Aufwand des Auftrages initial abschätzen
- Machbarkeit des Auftrages abschätzen
- Rücksprache mit Architekten, Analysten und Data-Scientists halten
|
Daten identifizieren |
- Welche strukturierten, halbstrukturierten und offen verfügbaren "unstrukturierten" können und dürfen verwendet werden
- Wo sind diese Daten gelagert
- Wer ist Eigentümer dieser Daten
- Wie kann auf diese Daten zugegriffen werden
- Wie gross muss die Stichprobe (Datenerhebung) sein
- Auf welcher Breite und Tiefe wird die Stichprobe (Datenerhebung) erhoben
- Welche Qualitätskriterien gelten für die Stichprobe (Datenerhebung)
|
- Eingrenzen von
- Menge
- Heterogenität
- "Gültigkeitsdauer" der Datenstichprobe
- Wann, wird erhoben
- Wohin werden die erhobenen Daten verteilt, gelagert
- Wer ist der Eigentümer der Daten, wer sichtet, wer wertet aus
- welche Sicherheitsregeln gelten
|
Datenbeschaffung |
- wo gibt es rechtliche Einschränkungen
- welche Sicherheitsregeln gelten
- auf welchem Weg können diese Daten gestellt, angeliefert, beschafft werden
|
- Extract, Transform, Load
- Antriggern der Datenquellen
|
Datenreview |
- Sind die Daten
- aktuell
- valide
- authentisch
- verwendbar
- verwertbar
|
- Bewerten der Datenqualität
- Ermittlung von Streuung und Verteilungen
- Ermittlung von Ausreissern
- Erkennen von Grundmustern, Clustern und Korrelationskoeffizienten
|
Datenbereinigung |
- Welche Daten aus der Erhebung führen zu einer
- Verzerrung der Gesamtaussage
- Verfälschung von Analyse-Ergebnissen
- sind sogenannte "Ausreisser"
|
- Bereinigung der Datenerhebung
- Vorbereitung für das Auswerten
|
Erstellen von Auswertungsmodellen |
- Welche Zusammenhänge sollen dargestellt werden
- Welche Validierungsmodelle werden angewendet
- Welche Reportingmodelle werden angewendet
|
- Erstellen, Testen und Anwenden von Auswertungsalgorhithmen und Modellen
- Instruktion der Data-Analysts zur Nutzung derselben
|
Verarbeiten und Auswerten im engeren Sinne / Erstellen von Reports und Dashboards |
- Welche Reports werden geliefert
- In welchem Format
- In welcher Frequenz
- Wer nimmt vor Abliefern der Reports die Struktur derselben ab
- Wie oft werden die Reportingstrukturen revidiert
|
- Erstellen der Reports
- Validieren der gewonnenen Aussagen
- Triggern der Anschluss-Systeme (Push, Pull)
|
Informationsverteilung |
- Wer soll von welcher Erkenntnis benachrichtigt werden
- Welche Systeme werden aufgrund signifikanter Erkenntnisse getriggert
|
- Festlegen, wer die Ergebnisse in welchem Format und in welcher Frequenz erhält
- Festlegen, wer die Ergebnisse nicht erhält
- Festlegen wie lange die Datenbasis zur Datenerhebung gespeichert wird
- Festlegen, von wem und wann der Löschungsauftrag für die gewonnenen Stichproben erteilt wird
|
Was hier noch einfach und strukturiert daherkommt, bringt bisweilen die Systemarchitekten und technischen Umsetzer einer Big Data Initiative an die Grenzen des Leistbaren. Vor allem dann, wenn sich Business-Leute nicht der Tragweite dessen bewusst sind, was sie erwarten können und dürfen, wenn nur begrenzte Budgets für die Technologie vorhanden sind.
Doch dazu gibt es den nächsten Blog-Beitrag :-)