Klingt absurd, scheint aber zu funktionieren. Google hat seine Spracherkennung enorm verbessert. Das kann spannende Konsequenzen haben.
Google LaMDA: Heute reden wir mit Pluto, morgen mit einem Papierflieger
Kontext ist in Gesprächen wichtig, aber nicht alles. Denn viele Diskussionen fangen bei einem Thema an und gehen dann flüssig zu anderen, anfangs vielleicht eher unerwarteten Thematiken über. Hier stießen viele Chatbots oder digitale Assistenten bislang an ihre Grenzen. Um offene Dialoge zu führen, fehlte es ihnen an „Verständnis“ für die vertrackten Wege menschlicher Konversationen.
DATENSCHUTZHINWEIS: Dieses Video ist im erweiterten Datenschutzmodus von YouTube eingebunden. Durch den Klick auf das Wiedergabesymbol willige ich darin ein, dass eine Verbindung zu Google hergestellt wird und personenbezogene Daten an Google übertragen werden, die dieser Anbieter zur Analyse des Nutzerverhaltens oder zu Marketing-Zwecken nutzt. Weitere Infos hier.
So beginnt man etwa mit einem Gespräch übers Kochen und landet dann bei den kulturellen oder politischen Eigenheiten eines gewissen Landes. Die Antworten von KIs waren bis dato also immer sehr statisch und wirkten dementsprechend unnatürlich.
Google hat mit LaMDA (Language Model for Dialogue Assistance) nun wohl einen Durchbruch für natürlichere Gesprächspartner*innen geschafft. Demonstriert wird das Ganze anhand zweier Beispiele, der eher ungewöhnlichen Art: So unterhält sich eine Testperson erst mit dem Himmelskörper Pluto, der in diesem Fall vom Google Assistant gesprochen wird. Dieser gibt euch dann bereitwillig Auskunft über seine Beschaffenheit und deutet sogar mögliche Minderwertigkeitskomplexe zu seinem Dasein als Zwergplanet an.
Im zweiten Beispiel wird es nicht weniger abstrakt: Hier nimmt der Google Assistant die Rolle eines Papierfliegers ein. Das Gespräch verläuft trotzdem „natürlich“ und es ist schlichtweg beeindruckend, wie gut sich der Assistant in abstrakte Szenarien „hineinversetzen“ kann. Sogar eine gewisse Sensibilisierung für menschlichen Humor ist ihm nicht abzusprechen.
Ermöglicht wird dieses erhöhte Sprachverständnis durch das neuronale Netzwerk Transformer, welches seit 2017 immer weiter wächst und die Grundlage für viele KI-Projekte bildet. Für LaMDA wurde es gezielt mit unzähligen Dialogen trainiert, um die Nuancen von offenen Gesprächen zu erkennen.
Bessere Spracherkennung kann viele Auswirkungen haben
Googles bisherige Spracherkennung können wir übrigens bereits jetzt jederzeit auf YouTube begutachten. Schaltet hierzu einfach die automatischen Untertitel an und freut euch über einige absurde Wortkonstruktionen. Wahrscheinlich werden wir uns aber nicht mehr allzu lange an Googles Problemen mit den Nuancen der menschlichen Sprache erfreuen können, denn die KI dahinter wird eben immer besser.
Das kann spannende Auswüchse haben, wenn man das neugewonnene Verständnis zum Beispiel mit Google Translate kombiniert. Die Wege zum simultanen Übersetzer sind dann nicht mehr weit. Informationen können so auch viel mehr Menschen einfach zugänglich gemacht werden.
Andererseits könnte eine Suchmaschine, die die Inhalte von Video- und Audioaufnahmen innerhalb von Sekundenbruchteilen erkennen kann, auch negative Auswirkungen auf die Auswahl von Suchergebnissen haben. Bereits heutzutage wird jeder journalistische Text auf die eine oder andere Weise SEO-optimiert. Damit wird er Googles Suchalgorithmen angepasst, Keywords werden hineingeschrieben oder andere Begriffe ausgeklammert.
Sollte sich Googles Suchalgorithmus nun auch noch gesprochene Aufnahmen vornehmen, dann landen wir womöglich bald bei Testvideos oder Podcasts, die hunderte Male den Herstellernamen erwähnen – und sich so wiederum von den natürlichen Gegebenheiten der menschlichen Sprache verabschieden.
Wie genau Sprach- und Bilderkennung in Googles Suche einfließen wird ist noch nicht klar, aber die Mitarbeiter des Megakonzerns scheinen sich einiger Problematiken bereits bewusst zu sein: So sollen sich zukünftige Sprachassistenten an Fakten halten und keine Unwahrheiten verbreiten.
Zudem sollen verfestigte Vorbehalte und Ressentiments nicht reproduziert werden. Auch eine Zweckentfremdung der Technologie, wie sie etwa bei der Zensur von Inhalten stattfinden kann, soll verhindert werden. Google hat dafür KI-Prinzipien aufgestellt, die diese und weitere Vorgaben beinhalten. Wie gut die Umsetzung davon gelingt, wird unsere digitale Zukunft sicherlich stark mitbestimmen.
Was haltet ihr von Googles verkündetem Durchbruch in der Spracherkennung? Spannend oder doch eher gruselig? Lasst es uns in einem Kommentar wissen.
Produkte mit Google Assistant bei NBB
via: GoogleBlog, Google AI-Blog (1) (2), CNET Highlights auf YouTube.com