Sprachcomputer erkennen Gemütszustand – Multimodale Interfaces prägen eine neue Gerätegeneration

An Call Centern und dem Einsatz von Sprachcomputern führt für viele Unternehmen kein Weg mehr vorbei. Wettbewerbsdruck, der Zwang zur Service-Automatisierung und der Preisverfall in der Telekommunikation tragen hierzu einen großen Teil bei. Außerdem machen Wissenschaftler einen natürlichen Hang der Menschen zum Self-Service aus: Sprachverarbeitende Technologie, davon ist der Berliner Wissenschaftler Norbert Bolz http://www.medienberatung.tu-berlin.de überzeugt, werde in der Servicegesellschaft eine noch größere Rolle spielen, auch wenn der Voice Self Service dem Kunden eine andere emotionale Einstellung abverlange als im Internet, wo man genau wisse, dass man mit einem Programm in Dialog trete. „Gerade weil die Erwartungen an die menschliche Stimme so groß sind, weil man sie unmittelbar mit Gefühl, mit Menschlichkeit, mit Echtheit assoziiert, ist natürlich die Enttäuschung über ein schlechtes Programm gewaltig und ich glaube, wir alle haben schon diese Erfahrung gemacht mit schlechten Programmen“, so der Medien- und Kommunikationswissenschaftler. Lupo Pape, Geschäftsführer von SemanticEdge http://www.semanticedge.com in Berlin, erklärte im Interview mit dem Deutschlandfunk http://www.dradio.de, was moderne Spracherkennung leistet: „Die Akzente werden sehr gut abgefangen. Er kann ungefähr 50.000 bis 100.000 Worte verstehen, auch robust verstehen. Da werden Akzente abgedeckt. Natürlich, wenn ich anstelle von Kontostand sage: ‚Was ist drauf?’, dann kann es notwendig sein, dass ich das in der Grammatik hinterlegt haben muss, also dem Erkenner gesagt haben muss: ‚Was ist drauf?’ ist ein Synonym für Kontostand.“  Nach Erfahrungen von Dr. Elmar Nöth vom Lehrstuhl für Mustererkennung der Universität Erlangen-Nürnberg http://www5.informatik.uni-erlangen.de/de habe sich die Sprachdialogtechnik über die pure Spracherkennung hinaus weiter entwickelt und punkte sogar mit Emotionserkennung, die auch viele Unternehmen für den automatisierten Kundenkontakt für sich entdeckt hätten. Dabei gebe es mehrere Stufen: „Von Benutzereingaben per Tastatur über die Erkennung von Ziffern und Einzelwörtern zu der dritten Stufe, dem natürlichsprachlichen Dialog ohne feste Menüstruktur, wobei das Dialogsystem ganze Sätze versteht bis dahin, dass das Dialogsystem den emotionalen Benutzerzustand erkennt und darauf reagieren kann, um den Dialog natürlicher zu gestalten“, so Nöth. Emotionserkennung mache den Dialog mit der Maschine menschlicher, so sein Resümee. Weit fortgeschritten ist beispielsweise der multilinguale Kundenservice von T-Mobile. Er erkennt das Alter, das Geschlecht, die Sprache und die aktuelle Stimmung. Ziel dieses Projektes ist es, den Kunden mittels adaptiver Sprachdialoge individuell anzusprechen und ihn mit kundenspezifischen Angeboten zu begeistern. T-Mobile wurde für diese Lösung mit dem Voice Award der Brancheninitiative Voice Business http://www.voicedays.de ausgezeichnet.  

Natürlich-sprachliche Interfaces würden immer intelligenter, nutzerfreundlicher und bald um eine grafisches Ebene ergänzt, meint Lupo Pape. Er sieht die Sprachtechnologie nicht nur in Sachen telefonischer Kundenkontakt weiter im Aufwind. Das Stichwort heißt Multimodalität bei der Steuerung von Geräten: „Das heißt, das Voice Interface wird ergänzt durch ein grafisches Interface. Das Internet und die Sprachschnittstelle wachsen zusammen zu einem multimodalen Dialog. Und das dann auf mobilen Endgeräten, der nächsten Generation der Superhandys. Da werden wir ganz andere Arten der Mensch-Maschine-Interaktion haben. Das heißt also, man nutzt die Stärken des grafischen Interfaces mit den Stärken der Sprache. Wenn ich im Auto unterwegs bin, spreche ich. Wenn ich in der U-Bahn meine Ruhe haben will, dann nutze ich das grafische Interface. Am besten, man nutzt beide Modalitäten gleichzeitig“, so Pape im Deutschlandfunk.