Sprachcomputer erkennen Gemütszustand – Multimodale Interfaces prägen eine neue Gerätegeneration

An Call Centern und dem Einsatz von Sprachcomputern führt für viele Unternehmen kein Weg mehr vorbei. Wettbewerbsdruck, der Zwang zur Service-Automatisierung und der Preisverfall in der Telekommunikation tragen hierzu einen großen Teil bei. Außerdem machen Wissenschaftler einen natürlichen Hang der Menschen zum Self-Service aus: Sprachverarbeitende Technologie, davon ist der Berliner Wissenschaftler Norbert Bolz http://www.medienberatung.tu-berlin.de überzeugt, werde in der Servicegesellschaft eine noch größere Rolle spielen, auch wenn der Voice Self Service dem Kunden eine andere emotionale Einstellung abverlange als im Internet, wo man genau wisse, dass man mit einem Programm in Dialog trete. „Gerade weil die Erwartungen an die menschliche Stimme so groß sind, weil man sie unmittelbar mit Gefühl, mit Menschlichkeit, mit Echtheit assoziiert, ist natürlich die Enttäuschung über ein schlechtes Programm gewaltig und ich glaube, wir alle haben schon diese Erfahrung gemacht mit schlechten Programmen“, so der Medien- und Kommunikationswissenschaftler. Lupo Pape, Geschäftsführer von SemanticEdge http://www.semanticedge.com in Berlin, erklärte im Interview mit dem Deutschlandfunk http://www.dradio.de, was moderne Spracherkennung leistet: „Die Akzente werden sehr gut abgefangen. Er kann ungefähr 50.000 bis 100.000 Worte verstehen, auch robust verstehen. Da werden Akzente abgedeckt. Natürlich, wenn ich anstelle von Kontostand sage: ‚Was ist drauf?’, dann kann es notwendig sein, dass ich das in der Grammatik hinterlegt haben muss, also dem Erkenner gesagt haben muss: ‚Was ist drauf?’ ist ein Synonym für Kontostand.“  Nach Erfahrungen von Dr. Elmar Nöth vom Lehrstuhl für Mustererkennung der Universität Erlangen-Nürnberg http://www5.informatik.uni-erlangen.de/de habe sich die Sprachdialogtechnik über die pure Spracherkennung hinaus weiter entwickelt und punkte sogar mit Emotionserkennung, die auch viele Unternehmen für den automatisierten Kundenkontakt für sich entdeckt hätten. Dabei gebe es mehrere Stufen: „Von Benutzereingaben per Tastatur über die Erkennung von Ziffern und Einzelwörtern zu der dritten Stufe, dem natürlichsprachlichen Dialog ohne feste Menüstruktur, wobei das Dialogsystem ganze Sätze versteht bis dahin, dass das Dialogsystem den emotionalen Benutzerzustand erkennt und darauf reagieren kann, um den Dialog natürlicher zu gestalten“, so Nöth. Emotionserkennung mache den Dialog mit der Maschine menschlicher, so sein Resümee. Weit fortgeschritten ist beispielsweise der multilinguale Kundenservice von T-Mobile. Er erkennt das Alter, das Geschlecht, die Sprache und die aktuelle Stimmung. Ziel dieses Projektes ist es, den Kunden mittels adaptiver Sprachdialoge individuell anzusprechen und ihn mit kundenspezifischen Angeboten zu begeistern. T-Mobile wurde für diese Lösung mit dem Voice Award der Brancheninitiative Voice Business http://www.voicedays.de ausgezeichnet.  

Natürlich-sprachliche Interfaces würden immer intelligenter, nutzerfreundlicher und bald um eine grafisches Ebene ergänzt, meint Lupo Pape. Er sieht die Sprachtechnologie nicht nur in Sachen telefonischer Kundenkontakt weiter im Aufwind. Das Stichwort heißt Multimodalität bei der Steuerung von Geräten: „Das heißt, das Voice Interface wird ergänzt durch ein grafisches Interface. Das Internet und die Sprachschnittstelle wachsen zusammen zu einem multimodalen Dialog. Und das dann auf mobilen Endgeräten, der nächsten Generation der Superhandys. Da werden wir ganz andere Arten der Mensch-Maschine-Interaktion haben. Das heißt also, man nutzt die Stärken des grafischen Interfaces mit den Stärken der Sprache. Wenn ich im Auto unterwegs bin, spreche ich. Wenn ich in der U-Bahn meine Ruhe haben will, dann nutze ich das grafische Interface. Am besten, man nutzt beide Modalitäten gleichzeitig“, so Pape im Deutschlandfunk.

Sprachautomatisierung wird immer stärker von Informationstechnologie gesteuert

Kostensenkungen, höhere Wirtschaftlichkeit, schneller Time to Market, Return on Investment, besseres Kundenbeziehungsmanagement, höhere Automationsgrade – die Erwartungen an die IT-Prozesse innerhalb eines Unternehmens sind enorm. Zum Selbstläufer werden allerdings die wenigsten Projekte.  Mittlerweile arbeiten immer mehr Unternehmen mit Service orientierten Architekturen (SOA), die IT-Prozesse als eigenständige Services definieren. Ist SOA aber mehr als eines der viel bemühten Buzzwords dieser Tage? Jörn Kreutel sagt ja. Er ist Entwicklungsleiter bei SemanticEdge http://www.semanticedge.de und stellt Sprachdialogsysteme her, die mittlerweile immer mehr Geschäftsprozesse abbilden. Banken, Auskunftssysteme, Call Center oder Buchungsportale: Sprachautomatisierung ist für die meisten Europäer längst zum Alltag geworden.  „Man kann auf einzelne fertige Module zurückgreifen und sich quasi neue Anwendungen zusammenbauen“, sagt Kreutel im Vorfeld der Call Center World http://www.callcenterworld.de in Berlin, die vom 19. bis 21. Februar im Hotel Estrel stattfindet. Das SOA-Konzept liegt eigentlich auch seiner Arbeit zugrunde. Auch wenn Sprachapplikationen für viele Brancheninsider eher in den Bereich der Telekommunikation fallen, sieht Kreutel sie als IT-Bestandteil. „Voice-Applikationen unterscheiden sich durch die Interaktion mit dem Nutzer von anderen Software-Modellen nur geringfügig. Der Nutzer liefert eine Information, einen Wert, auf dessen Basis das Programm weiterarbeiten kann.“ Allerdings sei die Bandbreite der möglichen Eingaben erheblich größer. So könnten die Nutzer beispielsweise viel mehr Informationen geben, als das System benötige. Das alles läuft in der Java-basierten-Eclipse-Umgebung, die sich für viele Unternehmen als Standard etabliert hat, auch weil sich die Software-Werkzeuge der meisten Hersteller problemlos integrieren lassen. „In einer Eclipse-Umgebung kann man problemlos auch eine Voice Applikation bauen“, erläutert Kreutel.  SemanticEdge bietet hierzu mit einem Modularitätskonzept auch die Möglichkeit für Anwender, diese selber weiterzuentwickeln. „Sprachapplikationen, insbesondere natürlich-sprachliche Dialoge sind aufwendig zu entwickeln und erfordern viel Zeit im Feinschliff. Gleichzeitig aber sind die Anforderungen der Anwender in der Regel nicht so individuell, dass nicht ein signifikanter Teil der Dialoge auf der Basis vorgefertigter und im Livebetrieb feingeschliffener Applikationsmodule abgebildet werden kann, die dann um individuelle Erweiterungen und Änderungen ergänzt werden“, erklärt SemanticEdge-Geschäftsführer Lupo Pape. Ähnlich wie im ERP-Bereich gebe es auch bei Sprachdialogen die Entwicklung hin zu Branchenlösungen, die nicht immer wieder neu entwickelt und aufgebaut werden müssten, sondern nur angepasst würden, was für den Anwender ein schnelleres Time to Market bedeute. Die Anwendung in einer Eclipse-Umgebung ermögliche es überdies der IT-Abteilung eines Unternehmens, ohne weitere Kenntnisse der Voice-Technik, Sprachapplikationen zu betreiben. Auch müssten keine zusätzlichen und nicht dem Unternehmensstandard entsprechenden IT-Komponenten installiert werden.  Eine neue Generation hoch modularer und damit vielschichtig konfigurierbarer Sprachapplikationen biete zusätzlich auch als Hosted-Solution die Möglichkeit eines kostengünstigen Einstiegs für Anwender in komplexe, natürlich-sprachliche Multi-Servce-Portale auf der Basis einer pro Call-Abrechnung. Neben dem Bereitstellen reiner Hosting-Kapazitäten zeichne sich nach Anstich von Pape ein neuer Trend dahingehend ab, dass auch Applikationen nicht gekauft sondern entsprechend der Nutzung bezahlt werden. 

Sein Unternehmen wird auf der Call Center World neue Sprachdialogsysteme im Live-Betrieb zeigen, so das  Filialportal der Dresdner Bank, die größte deutsche Vermittlungslösung mit Vorqualifizierung und Automatisierung von Bankingprozessen, und die Elektronische Versicherungsbestätigung des Gesamtverbands der Deutschen Versicherungsindustrie (GDV). „Banken müssen angesichts des globalen Wettbewerbsdrucks auch im Kundenservice neue Strategien entwickeln. Dazu gehört das Überdenken der Möglichkeiten beim Self Service. Durch die Vorqualifizierung der Anrufe und die Automatisierung von Standardprozessen wie Kontoservices, Überweisungen, Vermittlung und Filialinformationen können nicht nur Kosten drastisch gesenkt, sondern auch neue Freiräume im Kundenservice geschaffen werden“, sagt Pape.

Kostenlos-Mentalität der Internetnutzer wird sich auch im Mobilfunk durchsetzen

Mobile Internetdienste werden nach Ansicht von Branchenexperten darüber entscheiden, wer den Wettlauf in der digitalen Kommunikationswelt gewinnen wird. Hier stehen nicht nur Konzerne wie Microsoft unter Druck, sondern auch die Handyhersteller. „Wer sich heute noch auf den Verkauf von Mobiltelefonen fokussiert, wird ein ähnliches Schicksal erleiden wie die Konzerne Grundig oder Telefunken, die im Fernsehgeschäft den Kampf gegen die japanische Billigkonkurrenz verloren haben und von der Bildfläche verschwunden sind“, warnt Mobilfunkexperte Michael Sander, Geschäftsführer der Lindauer Unternehmensberatung Terra Consulting Partners (TCP) http://www.terraconsult.de.  Das Geschäft mit mobilen Diensten biete neue Ertragspotenziale und werde auch das Kräfteverhältnis zwischen Herstellern und Netzbetreibern verändern. „Nokia hat das erkannt und entwickelt auf der Plattform Ovi http://ovi.nokia.com mobile Internetdienste für Musik, Fernsehen, Spiele und Navigation“, sagt Sander. Die Bündelung verschiedener mobil verfügbarer Inhalte und Dienste auf einer Plattform ist auch nach Einschätzung von Renatus Zilles, Vorsitzender der Geschäftsführung des Bonner Mehrwertdienste-Anbieters NEXT ID http://www.next-id.de, vielversprechend: „Der Trend geht klar hin zu hybriden Geschäftsmodellen, die ganz unterschiedliche Geschäftsmodelle über alle Medien hinweg integrieren und so die entscheidenden Verbundeffekte und Preisbündelungen, aber auch eine übergreifende Kundenbindung ermöglichen. Strategisches Ziel ist die Diversifikation der Erlösquellen, um sich langfristig im Markt behaupten zu können“, so Zilles.  Ovi ist nach Meinung von Bernhard Steimel, Autor des Praxisleitfadens Mobile Marketing http://www.absatzwirtschaft.de/mobile-marketing, auch eine strategische Antwort auf das iPhone von Apple: „Ich bin allerdings skeptisch, ob eine vergleichbare Erfolgsstory wie bei iTunes noch ein zweites Mal geschrieben werden kann. Mittelfristig werden sich weder Hersteller noch Netzbetreiber erfolgreich als Türsteher zum mobilen Internet behaupten können. Vielmehr wird sich eine ähnliche Entwicklung wie im stationären Internet vollziehen: von einer BTX-Welt über Dienste wie AOL zum World Wide Web“, sagt Steimel, Geschäftsführer von Mind Business Consultants http://www.mind-consult.net und Sprecher der Voice Days http://www.voicedays.de. Mit steigenden Werbeausgaben für das mobile Internet komme es zu einer Veränderung der Geschäftsmodelle. „Ich rechne im Mobilfunk mit einer Entwicklung wie beim klassischen Internet. Werbefinanzierte Inhalte führen zu einer stärkeren Nutzung des mobilen Internets – auch hier wird sich die ‚Kostenlos-Mentalität’ durchsetzen“, prognostiziert Steimel. Das iPhone belege eindeutig, dass ein neues „vertikales“ Geschäftsmodell nur funktioniert, wenn ein attraktives Online-Portal kombiniert werde mit einem attraktiven Multimedia-Endgerät und einer nahtlosen Integration. „Die wahren Konkurrenten der Handyhersteller sind deshalb die Suchmaschinen-Giganten Google und Yahoo“, erläutert der Internetkenner Steimel.

Internet der Zukunft wird von Sprachtechnologie beherrscht – Microsoft, Google und Yahoo setzen auf intuitive Mensch-Maschine-Kommunikation

Die Internetsuche wird sich nach Ansicht von Webexperten immer mehr in Richtung Spracherkennung bewegen: „Wir finden es sehr wichtig, dass man seine Fragen in einer natürlichen Sprache eingeben kann. Ich rechne damit, dass das noch fünf oder zehn Jahre dauert“, prognostiziert die Google-Strategin Marissa Mayer im Gespräch mit der FAZ http://www.faz.net Bedeutsam werde zudem die Suche in Audiodateien. „Wir haben schon verschiedene Varianten untersucht, mit denen wir zum Beispiel die Texte aus Podcasts herausschreiben und durchsuchbar machen können. Aber das ist sehr schwierig. Musikaufnahmen interessieren uns dagegen nicht so sehr. Denn da sind die rechtlichen Fragen sehr schwierig“, so Mayer gegenüber der FAZ. Zu einer ähnlichen Einschätzung gelangt Microsoft-Gründer Bill Gates: „Der Wandel wird sich umso schneller vollziehen, je mehr die Technik sich den Bedürfnissen der Menschen im Umgang der Menschen miteinander anpasst. Durch den Einsatz kostengünstigerer und leistungsstärkerer Computer konnten Forscher bereits viele Probleme lösen, zum Beispiel kann die Technik jetzt Sprache und Handschrift verstehen. Gerade erst entstehen Möglichkeiten, den Computer intuitiv zu nutzen – indem wir sehen, sprechen, etwas berühren, von Hand schreiben und gestikulieren“, glaubt Gates. Dass man dem Computer Dinge so einfach mitteilen und seine Antworten so einfach verstehen könne, werde enorme Auswirkungen auf unseren alltäglichen Umgang mit Technik haben, aber auch auf den Umgang der Menschen untereinander.

 

Den Durchbruch erwarten Branchenkenner allerdings wesentlich früher: „Die Google-Strategin Mayer stapelt bewusst tief. Fünf bis zehn Jahre wird es auf keinen Fall dauern, bevor wir mit natürlicher Sprache auch Suchmaschinen steuern können. So bietet Google in den USA schon jetzt einen experimentellen Sprachservice unter dem Namen ‚Google Voice Local Search’ an. Unter der Nummer 1-800-GOOG-411 kann man den Namen eines Unternehmens oder einer Unternehmensbranche in allen Teilen der USA anfragen. Das erfolgt nach der Eingabeaufforderung. Man kann Stadt und Bundesstaat oder wahlweise die Postleitzahl in einem Satz nennen: Nachdem der Anrufer einen Eintrag gewählt hat, hat er in nächster Instanz die Möglichkeit, den Anruf direkt zu tätigen“, weiß Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de. Das lokale Suchsystem sei vollständig automatisiert und liefere die gleichen lokalen Geschäftsinformationen wie Google Maps. „Die Ergebnisse werden über das Text-to-Speech-System wiedergegeben und können zudem als SMS auf den Mobiltelefonen abgerufen werden“, sagt Sprachdialogexperte Pape. Auch Bernhard Steimel, Sprecher des Fachkongresses „Voice Days“ http://www.voicedays.de, geht davon aus, dass der Suchmaschinengigant schon in den nächsten Jahren ausgereifte Konzepte für Sprachtechnologie präsentiert: „Die Rekrutierung von Mike Cohen als Manager der Speech Technology Group ist ein untrügliches Zeichen für die Google-Strategie. Nachdem Cohen bei SRI International ein volles Jahrzehnt aktiv in der Forschungsarbeit für Spracherkennung tätig war, hat er als Mitgründer die damalige Nuance Communications aufgebaut. Letztere ist mittlerweile durch ScanSoft, die den Namen Nuance übernommen hat, aufgekauft worden“. Google wisse sehr genau, dass eine große Anzahl von Informationen in der Welt gesprochene Informationen seien. Hierzu gehörten auch die Audio-Angebote, die sich immer stärker im Internet ausbreiten. „Einen weiteren Schwerpunkt der Arbeit von Cohen sehe ich bei Dialogsystemen für mobile Endgeräte“, spekuliert Steimel. Auf den diesjährigen Voice Days im Oktober zähle die Endgerätesteuerung durch Spracherkennung zu den wichtigsten Trendthemen: „Und da will Google in der ersten Liga mitspielen. Sie werden das Ziel verfolgen, die Interaktion mit Endgeräten so einfach und kurz wie möglich zu gestalten, dabei allerdings nicht so kurz, dass der Nutzer sein Ziel verfehlt. Die Nutzererfahrung zu vereinfachen, ist selbst im Web von Bedeutung und Google ist bekannt für das knappe Interface seiner Suchfunktionen. Bei mobilen Geräten ist das Streamlining von noch größerer Bedeutung, besonders dann, wenn die Interaktion komplett von einem Sprachsystem getragen wird, da die Sprachausgabe als Serie verläuft und langsamer als eine Textmitteilung ist“, erklärt Steimel.  

Auch der Konkurrent Yahoo arbeite fieberhaft an besseren Input-Vorrichtungen für mobile Engeräte. „Es ist sehr schwierig, eine lange URL in das Telefon einzugeben. Ebenso problematisch ist es, längere Texte einzutippen und Dinge anzuklicken und dann, nachdem man etwas angeklickt hat, noch auf die Antwort zu warten. Aspekte wie Dringlichkeit, das Bedürfnis nach Schnelligkeit und eine leichte, komfortable Handhabung spielen für Yahoo eine größere Rolle als dies beim PC der Fall ist“, so Steimel. Der Sprachtechnologie-Wettkampf des Dreigestirns Microsoft, Google und Yahoo werde nach seiner Meinung wie ein Katalysator wirken und die digitale Kommunikation revolutionieren.

Sprechende Assistenten: Alltagsroboter sollen das Leben erleichtern

Roboter haben den modernen Lebens- und Arbeitsalltag des Menschen erobert. Sie montieren Autos, übernehmen Hausarbeiten, spielen Fußball mit den Kindern. Fast scheint es, dass der Traum vom allzeit willigen Helfer, den Literatur und Science-Fiction seit Jahrhunderten ausgemalt haben, Realität geworden ist. Wie aus Träumen Wirklichkeit wurde, dokumentiert das Frankfurter Museum für Kommunikation mit seiner Ausstellung „Die Roboter kommen!“ Musikautomaten aus dem 18. Jahrhundert, legendäre Werberoboter der 1950er Jahre und moderne Forschungsroboter, darunter der humanoide Roboter „Armar II“, veranschaulichen die Entwicklung.

Moderne Serviceroboter, die staubsaugen oder die Geschirrspülmaschine ausräumen können, sehen wie freundliche Hausgenossen aus. Gerade erst hat Toyota einen Geige spielenden Roboter vorgestellt, der zeigt, wie die elektronische Welt von morgen aussehen könnte. Dabei ist Toyota nicht allein mit seinen Planungen, sondern hat im eigenen Land eifrige Konkurrenten:

„Lange führte dabei Honda die Entwicklung von humanoiden Robotern an: Vor über 20 Jahren startete der Auto- und Motorradhersteller ein bis vor Kurzem viel belächeltes Roboterprogramm. Inzwischen kann der Roboter Asimo laufen, die Hand geben und soll bereits in den kommenden Jahren als Bote in Büros arbeiten“, berichtet Focus Online. Auch „Nissan stellte auf der Tokyo Motor Show einen fußballgroßen Roboterkopf vor, der in das Armaturenbrett seines Konzeptautos Pivo 2 eingebaut war. Der Kopf soll mit dem Fahrer plaudern und ihm bei Müdigkeit Restaurants für eine Pause vorschlagen“, so das Magazin.

Sprechende Assistenzsysteme scheinen auf dem Vormarsch, auch in der Unternehmenskommunikation, wie das Beispiel Daimler belegt. Der Personal Assistant ist hier eine Vermittlungs- und Assistenzanwendung für das Personal Information Management der Konzernmitarbeiter. Sie verwirklicht ein so genanntes One-Number-Konzept für die ständige Erreichbarkeit der Mitarbeiter und den Wechsel von der Festnetztelefonie auf Vermittlungs- und Assistenzdienste. Realisiert wurde diese Anwendung vom Berliner Unternehmen SemanticEdge:

„Selbst wenn man den Namen eines Geschäftspartners gerade nicht weiß, kann man über eine Suchfunktion mit der Eingabe von Branche und Standort die gewünschte Verbindung aufbauen”, erklärt SemanticEdge-Geschäftsführer Lupo Pape.

Per Spracheingabe könnten die Mitarbeiter eine Routing-Funktion nutzen, alle Anrufe umleiten, so dass sie auf einer bestimmten Nummer zu erreichen sind.

Sprachverarbeitende Technologie, davon ist auch der Berliner Zukunftsforscher Norbert Bolz überzeugt, wird in den nächsten Jahren eine wachsende Rolle spielen.

„Wenn Sie auf Ihr Auto zugehen und können es öffnen und starten, indem Sie es ansprechen, das lässt sich niemals überbieten“, erläutert er einen alten Traum der Zivilisation. „Ich persönlich kenne überhaupt keinen Zukunftsforscher oder Technologen, der Zukunftsszenarien entwickelt und nicht davon ausgehen würde, dass die Stimme letztlich das ultimative Interface ist“, sagte Bolz bei den Bonner Voice Days.

Die KI-Forschung und speziell die Robotik gelten weltweit als Zukunftsmarkt.

„6,9 Milliarden Euro setzte allein die deutsche Roboterwirtschaft 2005 mit ihren Produkten um. Außerhalb der industriellen Fertigung gelten Serviceroboter als Wachstumsbereich”, analysiert die Zeitschrift Technology Review.

Die Begeisterung für Robotertechnik erinnert Microsoft-Gründer Bill Gates an die Zeit, als er und sein Partner Paul Allen davon träumten, dass irgendwann auf jedem Schreibtisch und in jedem Haus ein Computer stehen könnte. Gates könne sich eine Zukunft vorstellen, in der roboterähnliche Geräte zu einem fast allgegenwärtigen Bestandteil des täglichen Lebens werden. Für den Sprachdialogexperten Pape sind das keine Hirngespinste. Bereits heute existierten die dafür notwendigen Technologien wie dezentrales Rechnen, Sprach- und Mustererkennung. Drahtlose Breitbandverbindungen könnten die Tür zu einer neuen Generation selbständiger Geräte öffnen, die Aufgaben für Menschen erledigen.

„Da liegt allerdings noch ein weiter Weg vor uns. Für Maschinen ist es sehr schwierig, sich in einem Raum zu orientieren, auf Geräusche zu reagieren, Sprache zu interpretieren und Gegenstände zu ergreifen, die höchst unterschiedlich sind”, sagt Pape.

Eine funktionierende Spracherkennung werde unverzichtbar sein, um Roboter im Alltag einzusetzen, etwa in der Altenpflege oder bei der Unterstützung behinderter Menschen.