Big Data und Google haben Schnupfen - Über die Fehlprognosen der Korrelations-Adepten #Cebit #Grippe #GoogleFluTrends

Google Flu Trends (GFT) gelten in der Big Data-Szene als Paradebeispiel für Anwendungen, die mit der Analyse von Datenmassen möglich sind. Entsprechend selbstbewusst trat auch Wieland Holfelder, Engineering Director von Google Deutschland, bei seinem Cebit-Vortrag auf und berichtete von den unendlichen Möglichkeiten, die von seinem Suchmaschinen-Konzern geboten werden.

Bei der Vorhersage von Grippe-Epidemien, die selbst regional möglich sein sollen, gibt es wohl doch noch einiges zu verbessern, schreibt die Süddeutsche Zeitung mit Verweis auf einen Forschungsbericht, der in der Fachzeitschrift Science erschien:

„So wurde die nichtsaisonale H1N1-Pandemie des Jahres 2009 vom ursprünglichen GFT schlicht übersehen. Danach hat ein verbessertes GFT das Ausmaß der saisonalen Epidemien 2011/2012 und 2012/2013 um mehr als 50 Prozent überschätzt. Und im Zeitraum von August 2011 bis September 2013 lieferte das Analyse-Tool an 100 von 108 Wochen überhöhte Prognosen. Da Google weder die verwendeten Suchbegriffe noch den Algorithmus offenlegt, fällt die Suche nach den Gründen für diese Fehlprognosen schwer. Die Science-Autoren vermuten eine ‚Big-Data-Hybris‘, die dazu führt, dass die Google-Forscher sich angesichts der Menge der Daten nicht ausreichend um deren Validität und Reliabilität kümmern“, so die SZ.

Mit wissenschaftlichen Standards, die man überprüfen kann, hat das Ganze rein gar nichts zu tun. Und genau das ist so ärgerlich. Wer seine Big Data-Formeln nicht offenlegt, entzieht sich der Wiederholbarkeit seiner Berechnungen. Vielleicht sollte deshalb auch Professor Viktor Mayer-Schönberger die Ausführungen in seinem Big Data-Büchlein noch einmal hinterfragen und in der nächsten Auflage korrigieren:

„Korrelationen sind viel leichter und billiger als Kausalzusammenhänge aufzuspüren und daher oft zu bevorzugen…Für viele Alltagsaufgaben reicht es allerdings aus, das Was, nicht das Warum zu kennen. Und Big Data-Korrelationen können uns zeigen, welche Kausalzusammenhänge näher zu untersuchen sich am ehesten lohnen. Diese schnell aufgefundenen Korrelationen sparen uns Geld beim Flugticketkauf, sagen Grippewellen voraus und wissen, welche Kabelschachtdeckel oder überfüllten Mietshäuser man in einer Welt mit begrenzten Ressourcen bevorzugt inspizieren sollte.“

Herr Professor, vielleicht sollten Sie doch wieder mehr über Kausalitäten und Warum-Fragen nachdenken sowie Standards entwickeln, wie man kommerzielle Big Data-Anbieter validieren kann. Wenn das mit den Vorhersagen auf der Meta-Ebene nicht klappt, wie Fehlerhaft sind dann die Prognosen für einzelne Menschen?

Deshalb liege ich mit meiner Mittwochskolumne gar nicht so falsch: Warum man den Sozialingenieuren der Datenwelt Grenzen setzen muss.

Ein Gedanke zu “Big Data und Google haben Schnupfen – Über die Fehlprognosen der Korrelations-Adepten #Cebit #Grippe #GoogleFluTrends”

Zukunftsprognosen trifft man eher auf Dingen, die eine gewisse Gesetzmäßigkeit verfolgen. Beispiel das Wetter. Hier haben wir mit der Zeit Erfolge erzielen können. Ist zwar immer noch nicht sicher, aber man trifft es am eherten. Aber beim lebendigen Umfeld (Menschen) in dem eine Fülle von anderen Aspekte zu berücksichtigen sind, sind Prognosen, die sich am Tech-Tools stützen und dadurch Verhalten-Trivialisierung schaffen sehr trügerisch. Aber ich glaube, dass wenn man sich bei Gesetzmäßigkeiten auch im lebendigen Umfeld (wenn man sowas entdeckt) bei Prognosen nimmt, könnte es ein sehr nützliches Werkzeug sein. Aber hier ist ebenfalls die Offenlegung von Formeln notwendig, denn es geht um Menschen.

14. März 2014 um 19:15

greich

Zukunftsprognosen trifft man eher auf Dingen, die eine gewisse Gesetzmäßigkeit verfolgen. Beispiel das Wetter. Hier haben wir mit der Zeit Erfolge erzielen können. Ist zwar immer noch nicht sicher, aber man trifft es am eherten. Aber beim lebendigen Umfeld (Menschen) in dem eine Fülle von anderen Aspekte zu berücksichtigen sind, sind Prognosen, die sich am Tech-Tools stützen und dadurch Verhalten-Trivialisierung schaffen sehr trügerisch. Aber ich glaube, dass wenn man sich bei Gesetzmäßigkeiten auch im lebendigen Umfeld (wenn man sowas entdeckt) bei Prognosen nimmt, könnte es ein sehr nützliches Werkzeug sein. Aber hier ist ebenfalls die Offenlegung von Formeln notwendig, denn es geht um Menschen.

14. März 2014 um 19:15