Sprachdialogsysteme und das Bananen-Problem #gforce13

Sprachdialogsysteme leiden immer noch unter dem schlechten Image der alten Tonwahl-Systeme „Drücken Sie die 1, 2 oder 3 und warten dreitausend Jahre auf einen Hotline-Agenten“.

Dabei geht schon vieles mit natürlicher Sprache – ohne die Restriktionen durch die Vorgaben des Anbieters. Auf der G-Force in Wien sprach ich mit Heinrich Welter vom Spezialisten für Sprachdialogsysteme HFN über die Anwendungsmöglichkeiten von automatischen Systemen und über die Personalisierung im Kundenservice.

Sprachcomputer brauchen mehr Dialogintelligenz – Warum Tonwahlsysteme nerven

Kundenfrust bei klassischen Sprachcomputern
Kundenfrust bei klassischen Sprachcomputern
Klassische Sprachautomaten sind für viele Verbraucher ein Ärgernis. Wenn Firmen schlechte Systeme anbieten, würde das einen schlechten Eindruck beim Kunden hinterlassen, so Professor Elmar Nöth, Experte für Sprachverarbeitung an der Friedrich-Alexander-Universität Erlangen-Nürnberg, gegenüber dem Fachmagazin „Direktmarketing“: „Der Mensch soll sich aber nicht auf die Maschine einstellen, sondern die Maschine auf den Menschen. Billige Systeme führen zu genervten Leuten, und das ist schlecht für Kunden und Unternehmen.“

Sprachautomaten brauchen daher eine sehr ausgefeilte Dialogintelligenz. Davon ist Lupo Pape, Geschäftsführer von SemanticEdge in Berlin, überzeugt. Sprachsysteme sollten nicht nur die Fähigkeit besitzen zu sprechen, sondern müssten sich auch auf das Gesagte einstellen können. Der Anrufer gibt Anweisungen oder stellt Fragen, die vom Computer befolgt oder beantwortet werden. Noch weiter gehen Entwicklungen, die den Anrufer erkennen, seine Emotionen heraushören und sich entsprechend anpassen können. „Die Personalisierung der Dialogsysteme ist ein wichtiger Schritt, um Kundenwünsche vorausahnen zu können auf Basis der Kundendaten. Dann sind differenzierte Services und Auskünfte möglich, je nachdem wer, wann und wo anruft“, erläutert Pape. Der Dialog laufe dann wie folgt: Hallo Herr Herrmann! Oh! Ich sehe, dass Sie in letzter Zeit mehrfach versucht haben sich einzuwählen. Möglicherweise haben Sie Probleme mit…

Von der Sprachsteuerung zum persönlichen Assistenten
Von der Sprachsteuerung zum persönlichen Assistenten
Die alten Tonwahl-Systeme, drücken Sie die 1, wenn Sie ein Problem mit Ihrem Drucker haben, drücken Sie die 2, wenn Sie eine Frage zu neuen Produkten haben, seien nicht mehr zukunftsfähig. „Diktiererkenner werden immer besser und auch die Dialogtechnologie macht enorme Fortschritte. Die Systeme können viel mehr verstehen und die Dialoge werden immer natürlicher“, so Pape zur Weiterentwicklung der Sprachsteuerung. Interessante Dinge könnten in der mobilen Welt passieren. Der Dienst „Google Voice Search“ habe das Potential, sich zu einem persönlichen Assistenten zu mausern.

Abschied vom Tastenwahlblock – Sprachsteuerung als „Tipping Point“ des mobilen Internets

Lösungen von Nuance für die Automobilbranche
Lösungen von Nuance für die Automobilbranche
Mobile Computer und Navis setzen sich nach einem Bericht des Computer Informationsdienstes (CID) immer mehr durch. Doch wer unterwegs auf den Rechner zugreifen möchte, hat nicht immer die Hände frei oder muss die Augen auf seine Umgebung richten. Hier sehen die Marktforschungsexperten der Datamonitor Group die größten Chancen für Sprachsteuerungs-Applikationen. Die weltweiten Umsätze mit sogenannter „Advanced Speech Recognition” (ASR) sollen demnach in Smartphones und mobilen Kleinrechnern von 32,7 Millionen US-Dollar im Jahr 2009 auf 99,6 Millionen US-Dollar im Jahr 2014 steigen. Für die Spracherkennung in Fahrzeugen sagen die Analysten eine Steigerung von jetzt 64,3 Millionen US-Dollar auf 208,2 Millionen US-Dollar im Jahr 2014 voraus.

Sprachsteuerung für mobile Geräte
Sprachsteuerung für mobile Geräte
Sprachcomputer zählen auch für die Suchmaschinen zu den wichtigsten Instrumenten, um das mobile Internet bequem bedienen zu können. So bietet Yahoo ab sofort die Handy-Applikation „oneSearch Voice“ für Smartphones und das iPhone in Deutschland an. Das lästige Tippen auf der kleinen Tastatur oder dem Touch-Screen falle weg. Es genüge jetzt, den Suchbegriff per einfach auszusprechen. Die Darstellung der Ergebnisse werden für Handy-Displays optimiert angezeigt: Statt langer Linklisten liefere Yahoo nach Kategorien gegliederte Antworten. Sucht man beispielsweise mit der gesprochenen Eingabe „Bundesliga“ nach aktuellen Fußballergebnissen, erhält man eine Vielzahl von detaillierten Resultaten wie aktuelle Spielstände, Tabellenübersichten, Fotos sowie weiterführende Links. Die Ergebnisse sind nach Angaben von Yahoo übersichtlich in Kategorien aufbereitet. „Das System ist lernfähig: Es passt sich immer besser an die individuelle Sprechweise seines Nutzers an, je häufiger es eingesetzt wird. Während die meisten mobilen Spracherkennungssysteme auf einzelne Kategorien wie lokale Suchen spezialisiert sind, bietet wir den Nutzern die Möglichkeit, offene Suchanfragen zu stellen – mit hoch relevanten Ergebnissen für jede Art von Spracheingabe“, erklärt Michael Stenberg, Partner Director Central & Eastern Europe Yahoo! Mobile. Stenberg. Wer es dennoch lieber klassisch mag, könne nach wie vor auch die herkömmliche Texteingabe nutzen.

tipping pointDurch das Spracherkennungs-Feature will Yahoo seine Position als zentraler Einstiegspunkt ins mobile Internet festigen. Die Applikation kann unter http://de.m.yahoo.com/voice direkt auf unterstützte Handys oder über den iTunes Store auf das iPhone heruntergeladen werden. Die Sprachsteuerung wird von Web 2.0-Pionier Tim O’Reilly http://radar.oreilly.com sogar als „Tipping Point“ gewertet: Der Begriff bezeichnet jenen Moment, in dem etwas Einzigartiges zum Normalzustand wird und einen qualitativen Umschlagspunkt markiert. „Es ist es an der Zeit, Telefone als erstklassige Geräte zu sehen, um auf das Internet zugreifen zu können, und nicht nur als Möglichkeit, Inhalte und Anwendungen umzuwidmen, die ursprünglich dazu gedacht waren, mit einer Tastatur und einem Bildschirm gelesen zu werden“, meint O’Reilly.

Tastenwahlblock auch digital bislang nicht tot zu kriegen
Tastenwahlblock auch digital nicht tot zu kriegen
Auch in der ITK-Branche erwartet man Impulse von der Sprachsteuerung: „Computer werden heute immer noch primär über eine Tastatur bedient, die aus der Schreibmaschine entstanden ist, so als ob jeder Tastendruck einen mechanischen Hebel in Bewegung setzt. Selbst der Zeilenvorschub und Wagenrücklauf alias Carriage return ist uns erhalten geblieben, obwohl damit schon lange kein Papier mehr transportiert wird. Telefone haben zwar die Revolution von der Wählscheibe hin zur – in der Regel – 3×4 Tastatur gemacht, standardisiert nach ITU E.161, das erfolgte aber bereits in den 70er Jahren. Selbst moderne Handys und Smartphones halten sich noch an den Tastenwahlblock, entweder in mechanischer Ausführung oder als Icon-Darstellung auf einem Touchscreen“, weiß Andreas Latzel, Deutschland-Chef des ITK-Spezialisten Aastra, der viel Wert auf die Benutzerfreundlichkeit seiner Systeme legt. Die Technikentwicklung verlaufe zwar rasant, im Kern aber immer noch traditionell. Vorhersehbar sei, dass der Tastaturblock an seine Grenzen stoße – spätestens mit der breiten Einführung der SIP-Telefonie und der SIP-Teilnehmeradressen.

„Anders als bei professionellen Tischgeräten kommt die Ausstattung von Handys mit alphanumerischen Tastaturen zwar auch vor, ist aber in der Regel wegen der beschränkten Abmessungen nicht befriedigend. Da bietet sich der Weg zum Sprachinterface an: der Ansage von Adressen oder Einträgen des Telefonbuchs in normaler Sprachform. Sinnvoll ist das beim Autofahren oder anderen Tätigkeiten, die beide Hände verlangen“, erläutert Latzel. Noch interessanter werde die Sprachsteuerung nach Ansicht von SemanticEdge-Geschäftsführer Lupo Pape, wenn Wissen über die Domäne und Dialogintelligenz hinzukommen. „Dann kann man von Sprachdialogsystemen sprechen. Das ist das, was wir mit dem Personal Assistant umsetzen. Dazu müssen die Wissensgebiete semantisch aufbereitet und Dialogstrategien hinterlegt werden. Die wichtigsten Use-Cases gilt es zu modellieren“, resümiert Pape.

Luhmann, semantische Technologien und die Internet-Kommunikation: Web 3.0 soll Internet-Nutzer besser verstehen

Das Computer-Vermächtnis des Soziologen Niklas Luhmann
Das Computer-Vermächtnis des Soziologen Niklas Luhmann
Das Unternehmen iQser hat ehrgeizige Ziele, die landläufig unter dem Schlagwort Web 3.0 laufen. Es setzt auf semantischen, um die Flut von Informationen durch eine automatische inhaltliche Analyse zu bewältigen. Semantische Verfahren waren lange Zeit nur ein Experimentierfeld der Wissenschaftler, berichtet die FAZ und zitiert den iQser-Chef Jörg Wurzer mit der Aussage: „Jetzt hat die Semantik die Wissenschaft verlassen. Es gibt viele Startpus, die sich damit beschäftigen“. Und damit sei nicht nur das Großprojekt Theseus gemeint, das vor allem von großen Unternehmen getragen wird. „Unternehmen stehen vor der Herausforderung, eine Fülle von Informationen zu verarbeiten, die von Jahr zu Jahr wächst. Die hohe Verfügbarkeit von Informationen im Internet und immer mehr Anwender sowie Organisationen, die an der Produktion von Informationen beteiligt sind, tragen zu diesem Prozess bei“, teilt iQser in einer Presseerklärung mit.

Mit einer Software wolle man alle wichtigen internen und externen Informationen automatisch vernetzen. Jedes Dokument, jede E-Mail und jede Nachricht werde Projekten, Aufgaben oder Personen zugeordnet. Man solle nicht mehr nach Informationen suchen, sondern ihren Kontext auswählen und automatisch alle Informationen geliefert bekommen, die zu diesem Kontext gehört. Das könnten neue Forschungsberichte oder aktuellen Nachrichten sein.

Gute Idee: Reiseportale mit Nutzerkommentaren aus dem Social Web kombinieren
Gute Idee: Reiseportale mit Nutzerkommentaren aus dem Social Web kombinieren
So könnten Reiseziele auf Portalen wie Triptivity mit passenden Nutzerkommentaren aus sozialen Netzwerken oder mit Reisebeschreibungen angereichert werden. „Ein zweites Analyse-Ergebnis gibt einen Überblick darüber, welche Themen in den Artikeln behandelt werden, in welche Aspekte sie sich auffächern und welche grundlegenden Fakten vermittelt werden. Das dafür automatisch ermittelte Begriffsnetz wird in Form eine Baumes dargestellt, den der Anwender nutzen kann, um sein Interesse einzugrenzen und eine entsprechende Artikelauswahl vorzunehmen“, so iQser.

Mitarbeiter würden einen Überblick über die verfügbaren unstrukturierten Informationen erhalten, ohne diese zuerst sichten zu müssen. Anschließend sei eine Auswahl nach Interessenschwerpunkten möglich. Mit einem Web-Monitoring könne man erkennen, in welchem Zusammenhang im Internet über ein Unternehmen und seine Produkte diskutiert wird.

Experten für Künstliche Intelligenz sind sich einig, dass bei den neuen Projekten des semantischen Webs die Sprache eine ganz entscheidende Rolle spielen muss. „Beim Web 3.0 versucht man die Ergebnisse der Sprachforschung zu nutzen, um Suchbegriffe oder natürlich-sprachliche Suchanfragen tiefer zu analysieren und semantisch anzureichern. Suchergebnissen sollen am Ende präziser, besser strukturiert und um viele andere, nahe liegende Themengebiete angereichert werden. Idealerweise kann eine gestellte Frage dann auch in einem Satz beantwortet werden“, so die Erkenntnis des Sprachdialogexperten Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Diesem Trend entgegen komme die immer stärkere semantische Aufbereitung der Webinhalte in vielen Suchbereichen durch Internetnutzer, auch „Prosumer“ genannt, die in weltweiten Netzwerke aktiv sind. Das beste Beispiel hierfür sei Wikipedia. „Bisher musste das Wissen weitestgehend manuell in sogenannten Ontologien oder Taxonomien erstellt werden, welche die Begriffe zu einander in Beziehung setzen und daraus Wissensrepräsentationen unterschiedlichster Domänen bilden. Firmen wir iQser versuchen nun, das Wissen im Intranet oder Internet automatisch aufzubereiten. Das Ergebnis sollte eine Antwort und keine ewig lange Ergebnisliste mit vielen irrelevanten Texten sein“, erläutert Pape.

Sprachdialogsysteme machen das Web 3.0 zu einer Antwortmaschine
Sprachdialogsysteme machen das Web 3.0 zu einer Antwortmaschine
Gekoppelt mit Spracherkennung und Sprachsynthese könne dieser Weg zu ganz neuen Sucherfahrungen führen. Eine gesprochene Frage zu einem beliebigen Thema werde dann auch mit einem gesprochenen Satz beantwortet. „Dieses Szenario ist keinesfalls Science-Fiction, denn parallel zu den Fortschritten in der Suchtechnologie macht auch die Spracherkennung enorme Fortschritte. Auch die Dialogtechnologie spielt hier ein bedeutende Rolle, da bei vielen Anfragen weiterführende Fragen und Präzisierungen erforderlich sind“, sagt Pape. Die Frage „Wie komme ich jetzt am schnellsten nach Berlin?“ macht die Klärung erforderlich, ob man mit Zug, Auto oder Flugzeug reisen möchte. Es werde nach Ansicht des SemanticEdge-Chefs noch lange dauern, bis die vielen Informationen semantisch erschlossen und die wichtigsten Nutzungsszenarien klar sind. Bei Fahrplaninformationen, Navigation oder Adressdaten sei jetzt schon vieles möglich. Frei nach dem Soziologen Niklas Luhmann muss das semantische Web drei Komponenten der Kommunikation erfüllen: Mitteilung, Information und Verstehen.

Mit Sprachportalen Kundenwünsche antizipieren – Automatische Assistenzsysteme für Call Center

Das freenet-Kundenserviceportal wird von Call Center-Fachleuten und Wissenschaftlern als vorbildlich gewertet: So fragt das System nach der Authentifizierung des Kunden über 50 verschiedene Kundendaten in den angebundenen Backendsystemen ab, um einen möglichen Grund für den jeweiligen Anruf zu ermitteln. „Auch der technische Kundenassistent ist personalisiert und wird von der Hardware und dem Vertrag des Kunden beeinflusst. Während des Dialogs können automatisch E-Mails oder SMS erzeugt werden, die dem Kunden umfangreichere technische Dokumente an die Hand geben. Überdies kann während des Dialogs auf Wunsch ein Live-Check initialisiert werden, der den Status der DSL-Verbindung überprüft“, urteilt Professor Wolfgang Wahlster, Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI). Die Entwicklung des Systems wurde von SemanticEdge umgesetzt und wird auf der Call Center World in Berlin präsentiert.

„Wir haben im Vorfeld viele Sprachportale und Portalansätze betrachtet und uns dabei auch in anderen Branchen umgesehen. Es gibt zum Beispiel einige ganz hervorragende Bankenportale. Dabei gefiel uns der sehr robuste und offene natürlich-sprachliche Einstieg. Allerdings gibt es bei uns im Unterschied zu den Banken keine so häufig genutzten Standardservices. Wir brauchten also eine eigene Lösung. Die entscheidende Idee dazu kam dann von SemanticEdge“, so Ole Wegner, Mitglied der freenet-Geschäftsführung. Das Berliner Unternehmen schlug vor, den Anrufer gleich zu Beginn des Dialoges zu authentifizieren, um sämtliche in den Backend-Systemen verfügbaren Informationen für eine differenzierte Behandlung der Anrufe nutzen zu können. „Das Prinzip der personalisierten Dialoge leuchtete allen sofort ein. Besser noch: Wir hatten sofort das entscheidende Differenzierungsmerkmal zu allen anderen derzeit im Markt eingesetzten Sprachportalen“, erklärt Wegner.

In Zeiten eines hohen Anrufaufkommens könne sich die Bearbeitungszeit eingehender E-Mails und Briefe verlängern. Als Folge dessen könnten Kunden anrufen, um sich beim Kundenservice nach dem Bearbeitungsstand ihrer Anfrage zu erkundigen. „Durch die Koppelung des Sprachdialogsystems mit dem E-Mail-Management-System erhält der Kunde in unserem neuen Portal in einem solchen Fall gleich nach der Authentifizierung einen Hinweis darüber, wann die E-Mail eingegangen ist und wann mit einer Antwort von freenet zu rechnen ist. Unsere Erfahrung zeigt: Mehr als die Hälfte der Anrufer sind mit einer solchen Auskunft vollständig zufrieden“, sagt Wegner.

Ein anderes Beispiel sei der personalisierte Dialog bei Passwort-Problemen: Kunden haben ihren Benutzernamen oder ihr Passwort geändert oder vergessen und können sich nicht mehr einwählen. „Was machen wir in diesem Fall? Über unsere Backend-Systeme registrieren wir auch die vergeblichen Einwahlversuche, sprechen den betroffenen Anrufer gleich zu Beginn des Dialoges darauf an und helfen ihm mit der erneuten Übermittlung von Benutzername und PIN an die uns vorliegenden Kontaktdaten. Insgesamt wertet das Sprachportal in Sekunden-Bruchteilen mehr als 50 verschiedene Informationen aus verschiedenen Backend-Systemen aus und kann dadurch schon heute etwa jeden fünften Anruf vorausahnen. In Zukunft ist da sicherlich sogar noch mehr drin“, ist sich Wegner sicher.

In der aktuellen Version des Portals könnten rund 20 bis 30 Prozent der Anrufgründe antizipiert werden. „In den einzelnen zum Teil auch hoch komplexen Prozessen haben wir Automationsgrade mit bis zu über 90 Prozent. Insgesamt haben wir bereits mit der ersten Version des Sprachportals unsere Erwartungen deutlich übertroffen. Hinzu kommt, dass die Anzahl der automatisch erzeugten Trouble-Tickets durch die ausgefeilten, personalisierten Dialoge drastisch gesunken ist. Zudem sind wir gerade dabei, auch die Prozesse im anschließenden Mensch-Mensch-Dialog zu optimieren. Durch die gezieltere Vorqualifizierung der Anrufer bei der Weiterleitung an unsere Kundenservicemitarbeiter aus verschiedenen Stellen des Dialoges werden wir unsere Prozesse und Skills noch weiter optimieren können“, resümiert Wegner. Eine Meldung von NeueNachricht. Für den Inhalt ist NeueNachricht verantwortlich.