Google Wissen – Google Flu Trends Revisited

27. März 2010 | von Matthias | Kategorie: Suchmaschinen

Die Extraktion von Wissen durch Analyse von Suchanfragen

Schätzungen der World Health Organisation (WHO) zufolge erkranken jährlich weltweit drei bis fünf Millionen Menschen an Grippe oder damit in Verbindung stehenden Infektionskrankheiten. Für 250.000 bis 500.000 Menschen endet die Erkrankung tödlich [Vgl. WHO (2009)]. Aus diesem Grund betreibt die WHO ein globales Frühwarnsystem, das sich aus den Überwachungssystemen der einzelnen Staaten zusammensetzt. In den USA betreiben die U.S. Centers for Disease Control and Prevention das Überwachungssystem „U.S. Influenza Sentinel Provider Surveillance Network“. Es besteht aus einem Netzwerk mit über 2500 Leistungserbringern der Gesundheitsversorgung, die Daten von 16 Millionen Patienten pro Jahr übermitteln. Die CDC veröffentlichen diese Daten in wöchentlichen Reports als Indikatoren für die Grippeaktivität in den USA. Der gesamte Prozess von der Erhebung bis zur Fertigstellung der Statistiken nimmt ein bis zwei Wochen in Anspruch [Vgl. CDC (2009)]. Auf der Suche nach zeitnaheren Indikatoren wurden in moderneren Frühwarnsystemen indirekte Indikatoren, wie das Anrufvolumen von Beratungs-Hotlines [Vgl. Espino/Hogan/Wagner (2003)] oder Verkaufszahlen bestimmter Medikamente getestet [Vgl. Magruder (2003)].

Was kann Google wissen ?

Vor dem Hintergrund, dass im Jahr 2008 ca. 80 Prozent der amerikanischen Internetnutzer nach Gesundheitsinformationen im Internet suchten, könnten auch Suchanfragen und das darin verborgene Google Wissen einzigartige und wertvolle Indikatoren sein [Vgl. Fox (2008)]. Dieser Idee folgend werden in Google Flu Trends Suchanfragevolumina als indirekte Indikatoren für die Häufigkeitsraten von Grippe und grippeähnlichen Erkrankungen in den USA verwendet. Das Vergleichsmodell basiert auf der Annahme, dass die Wahrscheinlichkeit, mit der ein Arztbesuch in einer Region mit Grippe oder grippeähnlichen Erkrankungen in Verbindung steht, der Wahrscheinlichkeit entspricht, dass eine zufällige Suchanfrage in einer Region grippebezogen ist.
Aus der Analyse von 100 Suchtermen ergab sich ein Seit von 45 Suchtermen anhand derer die CDC Statistiken nachgebildet werden können
Um die Objektivität des Modells zu gewährleisten wurden 50 Millionen Suchterme bezüglich ihrer Erklärungsgüte gegenüber den statistischen Daten der CDC überprüft. Das Ergebnis waren 100 Suchterme aus denen unterschiedliche Suchterm-Sets zusammengestellt wurden. Kausal unbedeutende Begriffe, wie „high school basketball“ oder „oscar nominations“ wurden aus dieser Ergebnismenge entfernt. Die Erklärungsgüte der unterschiedlichen Sets wurde anhand eines Trainingsdatensatzes mit 128 Datenpunkten (1 Punkt entspricht einer Woche) von September 2003 bis März 2007 überprüft. Weitere 42 Datenpunkte von April 2007 bis Mai 2008 wurden als Testdaten reserviert. Das „Top Scoring Set“ besteht aus 45 Suchtermen und weist eine durchschnittliche Korrelation zu den Daten der CDC von 0,9 auf (min. 0,8 / max. 0,96). Es zeigt sich eine nachweisbare Verbindung zwischen Menschen, die nach Informationen über Grippe suchen und Menschen, die tatsächlich an Grippe erkrankt sind [Vgl. Ginsberg (2009)] .

Prognosen für den prozentualen Anteil grippeähnlicher Krankheiten (ILI percentage) der CDC (rot) mit Google Flu Trends (schwarz) im Vergleich
Die Vorteile des Google Wissen in Google Flu Trends sind offensichtlich. Die Abbildung zeigt, dass Google’s Prognosen in hohem Maße den tatsächlichen Statistiken der CDC entsprechen. Darüber hinaus lassen sie sich in annähernder Echtzeit erstellen (Zeitverzögerung = 1 Tag) und stehen somit ein bis zwei Wochen früher zur Verfügung. Ein weiterer Vorteil betrifft den geographischen Abstraktionsgrad der Prognosen. Während das System der CDC die USA in neun Regionen aufteilt, bietet Google Flu Trends die Anzeige bis auf Städteniveau an. Die Herkunft der Suchanfragen wird durch die geographische IP in den Google Server Logs ermittelt. Ein weiterer positiver Aspekt ist, dass Google Flu Trends auch außerhalb der Grippe-Saison (nicht verifizierbare) Prognosen auf Grundlage seines Modells erstellen kann.

Keine Angst. Die Jungs von Google wissen nicht alles!

Allerdings kann Google Flu Trends die konventionellen Statistiken nicht ersetzen, oder gar als alternatives Frühwarnsystem verwendet werden. Die verwendeten Suchanfragen geben keinen Aufschluss über demographische Daten. Dies ist besonders wichtig, da die Betroffenen häufig Mitglieder von Risikogruppen, wie sehr jungen, sehr alten oder chronisch kranken Menschen sind. Darüber hinaus ist das Nutzerverhalten nicht vorhersagbar und der Gesundheitszustand der Nutzer nicht verifizierbar. Öffentliche Verunsicherung über Epidemien könnte z.B. einen Anstieg der prozentualen Suchanfragen verursachen, weil auch gesunde Nutzer besorgt sind. Das Google Wissen in diesem System ist daher anfällig für Übertreibungen oder ungewöhnliche Vorfälle.



Ein Kommentar


  1. Philipp   11:09 am 10/16/2010

    Vielen Dank für diesen wirklich interessanten Artikel. Was Google so alles weiß, wird unsereins wohl nie erfahren. Ich fürchte aber, die wissen mittlerweile alles.



Schreibe einen Kommentar