Was hinter der Google Suchmaschine steckt?

Vor zwei Wochen hatte ich die Ehre einen der wohl mächtigsten Menschen der Welt kennen zu lernen – den Chef der Google Suchmaschine, Stanford Professor Nayak Pandu. Auf seinem kurzen Besuch in Wien erklärte er im Rahmen einer Veranstaltung in der Politischen Akademie der ÖVP, was wirklich hinter der Google Suchmaschine steckt und was ihn bzw. sein Team in seiner täglichen Arbeit antreibt und welchen Herausforderungen sie sich laufend stellen müssen. Die anwesenden Vorstände der Telekom-Industrie, sowie führende KI Spezialisten des Landes folgten dem spannenden Vortrag – die Highlights teile ich gerne in diesem Artikel.

Die Bedeutung von Google?

Google ist nicht nur eines der wertvollsten Unternehmen der Welt, es ist auch eines der mächtigsten und gleichzeitig wichtigsten Unternehmen der Welt. Das Internet – eine Ansammlung von ungeordnetem Wissen – wird durch Google indexiert. Denken sie an ein Buch und sein Inhaltsverzeichnis – Google ist allerdings weit mehr als nur das Inhaltsverzeichnis des Internets. Der Konzern macht Informationen verfügbar und konsumierbar. Übersetzungsdienste, ermöglichen es Inhalte für jeden Menschen auf der Welt lesbar zu machen. Komplexe KI Algorithmen helfen uns durch Spracheingabe und Texterkennung einerseits hochqualitative Ergebnisse aus der Google Suche zu erhalten – Google stellt diese Intelligenz aber auch öffentlich allen Softwareentwicklern zur Verfügung, welche wiederum Produkte und Services darauf basierend erstellen können.

Google Mitarbeiter sagen mit Überzeugung das sie Menschen helfen wollen, Informationen und Wissen weltweit verfügbar machen wollen und das natürlich unter einem enormen qualitativen Anspruch. So viel Begeisterung der heutige Stand der Technik bei uns auslöst, so sehr müssen wir auch mit Ernüchterung anerkennen das vieles noch nicht geht. Das automatische Erkennen von „Fake News“ (falsche Fakten, in redaktionellen Artikeln) oder etwa die Unterscheidung von Sarkasmus und Beschimpfungen bringt sehr große technische Herausforderungen.

Das Internet verändert alles

Das erste Bild von Nayak trifft voll ins Schwarze! Der aus Indien stammende Manager zeigt ein rostiges altes Fahrrad mit einem Mann im Sattel und einem Kind auf dem Gepäckträger in Indien. Dieses Bild könnte bereits 30 Jahre alt sein, wäre da nicht der Super-Computer in der Hand des Jungen – das Smartphone. Milliarden von Menschen nutzen die Google Suche täglich und das Smartphone hat die Nutzerzahlen maßgeblich erhöht und auch Google technisch einiges abverlangt.

Google will Informationen in allen Sprachen und auf allen Kontinenten verfügbar machen. Wo es kein Internet gibt, will man es zur Verfügung stellen – siehe Projekt Loon. Viele Inhalte bzw. Informationen werden nicht in jeder Landessprache produziert, sie müssen folglich ersetzt werden und das natürlich vollautomatisch! Die Datenmenge, die unglaubliche Menge an Suchanfragen sprengt unsere Vorstellungskraft und würde unter keinen Umständen auch nur ein geringes Ausmaß an menschlicher Interaktion zulassen.Te

Ein paar Zahlen

Wenn man ein Buch mit 300 Seiten betrachtet, so wird man  wahrscheinlich einen Index von rund 3 Seiten finden. Google indexiert Trillionen von Webseiten und es kommen jede Sekunde neue Inhalte dazu! Ende 2017 umfasste der Index von Google rund 100 Millionen GB an Daten, würde man diesen Index ausdrücken, könnte man einen Turm bauen der 12 mal zum Mond und zurück zur Erde reichen würde.

Google ist natürlich nicht perfekt. Das Unternehmen arbeitet sogar sehr hart daran laufend besser zu werden. Das ist aber gar nicht so leicht, wenn man bedenkt das rund 15% der Google suchen (täglich) völlig neu sind!

Google beschäftigt sicherlich ein paar der hellsten Köpfe der Welt und testet laufend neue Ideen und Hypothesen zur Verbesserung ihrer Systeme – sie nennen das Experimente. 2017 waren es 200.000 Qualitätsprüfungen, 31.000 sog. „Side by Side“ Experimente und 11.300 live Experimente (also auf echten Daten). All diese Experimente führten allerdings “nur” zu 2.400 neuen Features im selben Jahr – was bedeutet das Google nur mit einer Wahrscheinlichkeit von etwas über einem Prozent Verbesserungen herbeiführen kann und fast 99% der Annahmen der Ingenieure nicht zutreffen. Selbstverständlich ist man bei Google bereits auf einem extrem hohen Niveau angelangt und somit wird es immer schwieriger eine Verbesserung zu finden.

Technische Herausforderungen

Technisch sind Suchalgorithmen extrem herausfordernd – nicht zuletzt weil es Gegenspieler am Markt gibt, die versuchen die Algorithmen von Google zu überlisten. Vor einigen Jahren waren link-farmen und ähnliches noch sehr beliebt, um die Suchergebnisse zu beeinflussen, sowas geht längst nicht mehr – Google fokussiert sich auf qualitativ hochwertige Inhalte, welche Dank Natural Language Processing (NLP) – einer Form der KI zur Texterkennung – auch immer besser verstanden und klassifiziert werden können. Kopierte Texte mag Google überhaupt nicht – dafür gibt es Strafpunkte.

Wie man es schafft in der Google-Suche gut gereiht zu werden, dass versucht das Unternehmen auf speziellen Webseiten für Programmierer zu erläutern – wo bei natürlich auch der Hintergedanke zu sein scheint, dass sich die Webmaster an „Gesetzmäßigkeiten“ gewöhnen die es den Algorithmen leichter machen Inhalte zu verstehen.

Kompliziert wird es bei Synonymen (in allen Sprachen) oder wenn ein und das selbe Wort in unterschiedlichem Kontext völlig andere Bedeutungen hat. Die Forschung an Natürlicher Spracherkennung ( NLP = Natural Language Processing) ist hier der Schlüssel zu qualitativ hochwertigen Ergebnissen, der Algorithmus lernt allerdings noch immer täglich dazu.

Die nächste Generation der KI

Google arbeitet aktuell intensiv an einer Weiterentwicklung der Suche in Richtung Spracheingabe bzw. Konversation. Das Ziel ist also das man sich in Zukunft mit Google unterhalten kann – da tippen einfach nicht „angenehm“ ist.

Man kann sich das in der Praxis so vorstellen bzw. mit dem Android Telefon selbst testen:

User sagt: „Wie heißt die Königin von England?“
Google antwortet: „Elisabeth II“

User frag nach: „Wie lautet Ihr voller Name inklusive Titel?“
Google antwortet: „Elizabeth Alexandra Mary Windsor – Her Most Excellent Majesty Elizabeth the Second, by the Grace of God of the United Kingdom of Great Britain and Northern Ireland and of Her Other Realms and Territories Queen, Head of the Commonwealth, Defender of the Faith“

Das User-Interface der Zukunft wird Sprache sein und damit wird sich eine Welt weit über AR und VR hinaus öffnen. Ob es sprachliche Interaktion mit dem „Computer“ während der Autofahrt ist, oder die nächste Generation von Smart Home bzw. Smart Infrastructure Applikationen – wir dürfen gespannt sein, was hier noch alles kommt.