Der schleichende Niedergang der Fachkonferenz Voice Days dokumentierte recht eindrücklich die Schwächen der Call Center-Branche, auf innovative Self Service-Systeme zu setzen und wirklich pfiffige Sprachcomputer entwickeln zu lassen und einzusetzen. In den vergangenen Jahren konnten sich innovative Dienste nicht durchsetzen und die Software-Schmieden mussten sich mit Kleinkram herumschlagen. Es ist wohl kein Zufall, dass der KI-Forscher Professor Wolfgang Wahlster auf der letzten Voice Days-Pressekonferenz (danach wurde die Veranstaltung beerdigt) ein niederschmetterndes Resümee vortrug:
„Rund die Hälfte der Systeme hat mittlerweile zehn bis fünfzehn Jahre auf dem Buckel. Hier gibt es einen extremen Investitionsstau. Diese Technologien verkümmern und sollten lieber abgeschaltet werden. Auch Mitarbeiter im Call Center müssen ständig geschult werden. Gleiches gilt für Sprachcomputer”, sagte Wahlster.
Leider komme das Thema Self Service in vielen Firmen nicht in den Top-Etagen an. Folgeinvestitionen in smarte Dialogsystemen würden daher ausbleiben. An den dummen und alten Systemen leide die gesamte Branche.
Der völlige Verzicht auf moderne Sprachsysteme, wie er in Werbefilmen proklamiert wird, sei allerdings ein Schuss in den Ofen.
„Bei der Auslegung des Bürgertelefons 115 wurde Sprachtechnologie völlig ausgeblendet. Das kann nicht funktionieren. Es gibt nicht den allwissenden und jederzeit verfügbaren Mitarbeiter im Call Center.”
Siehe auch: Professor Wahlster: Veraltete und dumme Sprachcomputer schaden der Self Service-Branche – Moderne Systeme sind wertvolle Dialogpartner. Daran hat sich bis heute ja nichts geändert. Den Self Service-Zustand der Call Center in Deutschland hat der “Sagen Sie Bananen”-Werbespot ja treffend karikiert.
Die Markteinführung des iPhone 4s hat nun zu einem Kometeneinschlag in die recht dröge Sprachcomputer-Welt geführt. Obwohl ich anfänglich nicht ganz so begeistert war.
Da lag ich falsch! Bei der Präsentation von Apple-Chef Tim Cook hätte ich mal ein wenig in mein eigenes Text-Archiv schauen sollen. So schrieb ich 2007:
Wenn das Handy mit intelligenter Sprachtechnik ausgerüstet wird, könnte es sich nach Expertenmeinung zu einem sehr nützlichen persönlichen Assistenten entwickeln. Dialogsysteme seien nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge, geeignet, den Zugriff auf das vernetzte Weltwissen zu verbessern:
„Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären sofort ‚er-googlen’ würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und der Maus tun und das ganze jederzeit und von jedem Ort aus”, so der Sprachdialogexperte Pape.
Die fehlenden Bausteine dafür seien jetzt schon verfügbar, so dass es nur eine Frage der Zeit sei, bis sich die Menschen weltweit an dieses neue Interface gewöhnt haben.
„Die Spracherkennung im personalisierten Diktiermodus ist schon sehr ausgereift, die mobilen Datenzugriffe werden immer schneller und auch Flatrates im Mobilfunk werden vermutlich bald genauso verbreitet sein wie im DSL-Geschäft”, prognostiziert Pape.
Viele Informationen würden bereits strukturiert vorliegen, wie Fahrplaninformationen, Telefonnummern, Sportergebnisse, bewertete Restaurants und sonstige Adressen.
„Was fehlt, ist eine Art Yahoo des ‚Voicewebs’, über das sich jeder personalisiert seine gewünschten Angebote zusammenstellen und über Sprache oder Multimodale Interfaces abfragen kann“, so Pape.
Zu einer ähnlichen Einschätzung gelangt Professor Wolfgang Wahlster, Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI): „
Das Web 2.0 ist ein primär syntaktisches Web mit Layout-, aber ohne Bedeutungsannotationen“, so Wahlster gegenüber ddp.
Das führe zu einer Informations- beziehungsweise Linküberflutung, da beispielsweise Textdokumente letztlich auf eine sinnfreie Kombination aus Buchstaben reduziert werden, Fotos und Videos sind nur Ansammlungen von verschiedenfarbigen Pixeln. Die semantische Wende aber führe zu einem hochpräzisen Antwortverhalten in einem Web, das Sinnzusammenhänge in den Mittelpunkt stellt. Wenn es also gelingt, die Semantik von Texten, Bildern, Gesten und künstlerischen Darbietungen durch standardisierte Begriffe so zu formalisieren, dass die so gewonnenen Daten maschinenlesbar sind, dann könnte die Vision der Antwortmaschine Realität werden. Eine Suchmaschine wie Google wäre dann überflüssig.
In einem anderen Beitrag schrieb ich vor zwei Jahren:
Maschinen werden dazu in der Lage, uns vom Daten-Overkill zu erlösen. Der Informatik-Professor Herman Maurer hat das Szenario schon vor einigen Jahren vorgezeichnet. Alle Menschen werden jederzeit und an jedem Ort auf alles Wissen der Menschheit zugreifen können, ähnlich wie wir das heute bei materiellen Gütern können. Dieser Zugriff wird mit Geräten erfolgen, die stark mit den Menschen integriert sind, und wird sich auf Wissen beziehen das entweder aus Datenbanken kommt oder aus Dialogen mit Experten entsteht. Wir bekommen massgeschneiderte Wissenseinheiten über digitale Assistenten, die meine Vorlieben, Wünsche und Interessen genau kennen und mein berufliches sowie privates Alltagsleben erleichtern. Das geschieht über die Verwendung von Metadaten, Agententechnologie und Expertensystemen. Bei der Vernetzung ist es erforderlich, Wissen jederzeit und an jedem Ort verfügbar zu machen.
Mit der Apple-Sprachsteuerung SIRI kommen wir diesen Prognosen ein Stückchen näher! Merkwürdig, dass Google seinen Vorsprung in der Sprachtechnologie nicht ausgespielt hat. Mit “Voice Local Search” experimentierte der Suchmaschinen-Konzern schon vor ein paar Jahren.
„Den Kampf um die Köpfe hat Google bereits gewonnen – besonders durch die Art von Google, immer alles neu zu entwickeln und die geniale Strategie, mit GOOG411 im weltgrößten ‚Freiland-Versuch’ das eigene Sprachmodell zu validieren und mit einer exzellenten Qualität aufzuwarten. Und auch bei der Marktmacht hat Google noch die Nase vorn. Auf der ersten Seite der meisten TK-Unternehmen, die ihren mobilen Kunden eine Suche anbieten, steht in der Regel die mobile Google-Suche“, führte Mind Business-Berater Bernhard Steimel 2009 aus.
Warum Google daraus nichts gemacht hat, werde ich mal in einem Interview mit Steimel klären.
Ob nun Google mit der Sprachsteuerung SIRI überflüssig wird oder seine Position als dominante Welterklärungsmaschine ausbauen kann, bleibt eine spannende Frage. Die Wissenssoftware SIRI könnte jedenfalls zur ernsten Gefahr für Google werden, spekuliert der Spiegel in seiner aktuellen Ausgabe. SIRI verstehe gesprochene Sprache und ist auf verblüffende Weise in der Lage, Allerweltsfragen zu beantworten. Das fühle sich natürlicher an, als es Google jemals sein kann:
“Ich möchte nicht mehr auf Links klicken; ich möchte Fragen stellen und Anworten bekommen”, so der Computerwissenschaftler und Kolumnist Vivek Wadhwa gegenüber dem Spiegel.
Googles auf Werbung basierendes Geschäftsmodell habe sich überlebt:
“Die Industrie entwickelt sich sehr schnell weiter – neue Technik wird Google zunehmend überflüssig machen.”
Der neue Geist im Smartphone wird auch die Servicebranche auf den Kopf stellen: Schon jetzt gibt es virtuelle Agenten, die schlau sind, Produkte erklären, Preise vergleichen, Kundenwünsche antizipieren, Empfehlungen aussprechen, Buchungen vornehmen, das Wetter vorhersagen, Terminkalender managen und Transaktionen auslösen. Allerdings nicht aus Fleisch und Blut. Es sind Internetdienste gekoppelt mit intelligenten Business-Netzen:
„Das Spracherkennungssystem SIRI von Apple ist dafür ein schönes Beispiel. Im Hintergrund laufen ein gutes Dutzend Apps, mit denen es kommuniziert. Dazu zählen Wetter, Börse, Kalender, Wikipedia, Wolfram Alpha, Kontakte, oder Notizen. Diese Applikationen kann man sehr treffsicher auf die Bedürfnisse des Einzelnen ausrichten und eine semantische Wissensbasis aufbauen. Das verbessert nicht nur die Steuerung des mobilen Endgerätes, es verbessert auch den Nutzen der Applikationen, die ich nicht mehr einzeln aktivieren muss. Einfache Hotline-Auskünfte können da nicht mithalten. Die werden vom Markt verschwinden“, so der Ausblick von Udo Nadolski, Geschäftsführer des Düsseldorfer IT-Beratungshauses Harvey Nash.
Der Philosoph David Chalmers geht sogar noch einen Schritt weiter. Für ihn ist das iPhone zu einem Teil seines Geistes geworden, berichtet die neue Philosophie-Zeitschrift „Hohe Luft“ in ihrer ersten Ausgabe: Die Auslagerung unseres Gedächtnisses ins Internet wird allerdings nicht so kulturpessimistisch interpretiert wie von dem FAZ-Herausgeber Frank Schirrmacher. Eher werde der Geist erweitert.
„Menschen haben Denkvorgänge zu allen Zeiten ausgelagert. Wir machen uns Notizen auf einem Blatt Papier, wir benutzen Taschenrechner, speichern Informationen in Büchern oder Archiven. Und doch gehen wir zumeist davon aus, dass das alles nur Werkzeuge sind. Es ist doch unser Geist, der denkt“, schreibt der Hohe Luft-Autor Thomas Vasek.
„Insofern trifft die These vom ‚erweiterten Geist‘ wohl eher den Kern des Ganzen. Und hier treten eben die Widersprüche zum klassischen Kundenservice auf. Man gewöhnt sich sehr schnell an den Komfort der Netzintelligenz. Kunden bringen heute kein Verständnis mehr dafür auf, dass sich ihre Mobilfunkgeräte einfach und zuverlässig per Sprachbefehl steuern lassen, sie aber dennoch unter gewohnten Service-Hemmnissen leiden, wenn sie mit Unternehmen oder Organisationen in Verbindung treten: Verbraucher finden häufig auf den Websites der Firmen keine Antworten auf ihre Fragen, per E-Mail warten sie oft Tage bis eine Rückmeldung erfolgt. Und anrufen – so hat eine europaweite Kundenservice-Studie jüngst ergeben – wollen heutzutage immer weniger Menschen“, weiß der Software-Fachmann Andreas Klug von Ityx in Köln.
Eine freundliche Meldeformel eines Mitarbeiters im Call Center reiche schon lange nicht mehr aus, um die veränderten Erwartungen der Kunden zu bedienen.
„Entscheidend ist doch, dass für 80 Prozent der Verbraucherfragen im Moment der Kontaktaufnahme die richtigen Wissensinhalte zur Verfügung stehen. Und das unabhängig davon, ob ich eine Suche auf der Website des Anbieters durchführe, eine Mitteilung der E-Mail oder Facebook sende oder am Telefon eine Frage stelle“, so Klug.
Moderne Methoden der Mustererkennung und Künstlichen Intelligenz seien zuverlässig in der Lage zu antizipieren, was man als Kunde wünscht.
„Viele Direktversicherer, Online-Händler und Energieversorger setzen schon heute diese lernfähige Software ein“, resümiert Klug.
Unsichtbare Servicekommunikation
Hinter einem Touchpoint, den der Kunde nach seinen Präferenzen auswählt, laufen unterschiedliche Dienste ab, die allerdings unsichtbar bleiben. Hier kommt das virtuelle Fräulein vom Amt ins Spiel. Ein Szenario des Netzwerkspezialisten Bernd Stahl von Nash Technologies in Stuttgart. Auch er ist davon überzeugt, dass man von der Kommunikation überhaupt nichts mehr sehen wird. Die Netzintelligenz könne man überall abrufen – völlig unabhängig von den Endgeräten.
“Man kommuniziert über Endgeräte, die eigentlich keine mehr sind. Ein Geschäftskunde sagt beispielsweise seiner Armbanduhr, dass er nach Brüssel reisen wolle zu einem möglichst günstigen Preis. Er nennt noch das Datum und die Ankunftszeit. Die Anfrage geht ins Netz rein, das System sucht sich die Reiseportale, schaut nach den Übernachtungsmöglichkeiten und recherchiert völlig eigenständig alle notwendigen Informationen. Zurück kommen die kompletten Reiseunterlagen. Der Geschäftskunde legt seine Armbanduhr auf den Tisch, es erscheint eine 3D-Ansicht und er braucht nur noch das für ihn Relevante auswählen. Man kommuniziert über Sprache mit anderen Systemen, Servern oder Menschen und am Ende kommt etwas zurück. Hier kommt das berühmte Fräulein vom Amt wieder – allerdings vollautomatisiert und virtuell“, glaubt Stahl.
Alles werde gesteuert durch ein hochintelligentes Netz auf Basis semantischer Technologien und völlig neuen Geschäftsmodellen.
„Der Nutzer muss sich überhaupt keine Gedanken mehr machen über spezielle Endgeräte, die Auswahl von Diensten, das Netzwerk oder Serviceprovider. Er muss kein Ziel mehr eingeben über Telefonnummern, IP-Adressen oder Links. Alles das wird vom intelligenten semantischen Netz übernommen. Die Bedeutung der Anfrage wird automatisch in Einzelteile zerlegt, an unterschiedliche Ziele geschickt und zurück kommt der gewünschte Service oder das fertige Produkt“, so Stahl.
Nun, dieses Thema möchte ich in einem Expertengespräch auf der Call Center World in Berlin aufgreifen. Thema: Von Welterklärungsmaschinen und der unsichtbaren Servicekommunikation: Visionen für die Mensch-Maschine-Interaktion
Datum: Am Dienstag, den 28. Februar von 14,30 bis 15,30 14 bis 15 Uhr im Hotel Estrel, Berlin-Neukölln. Wer mitmachen möchte, schickt mir am besten eine E-Mail an: gunnareriksohn@googlemail.com
Das Ganze wird ähnlich ablaufen, wie die Diskussion über die vernetzte Serviceökonomie:
Was Experten für 2012 sonst noch so alles erwarten, hat t3n sehr schön zusammengefasst. Einige gehen auch auf das Thema SIRI ein. Beispielsweise Stefan Pfeiffer von IBM:
Wir bedienen per Sprache
Nach der Einführung und dem Erfolg des iPads haben wir den Touchscreen als neues Eingabemedium gefeiert. Wir berühren und touchen den Monitor, eine Revolution in der Bedienung und eine riesige Herausforderung an die Software-Entwickler, die ihre Anwendungen entsprechend anpassen müssen.
War’s das? Zu kurz gedacht. Siri zeigt den Weg. Die nächste (R)evolution steht in den Startlöchern. Wir steuern künftig unsere Anwendungen mehr und mehr über Sprache. Und das wird auch vor Unternehmensanwendungen nicht halt machen.
Oder Ulrike Langer:
Sprachgesteuerte Software
Siri ist erst der Anfang. Die Sprachsteuerung auf dem iPhone 4S ist so universell einsetzbar, dass 2012 Nachahmer folgen dürften. Nach und nach werden monofunktionale Geräte überflüssig, weil Smartphones ihre Funktion mit übernehmen. Allen voran Navis. Und wenn Apple TV zeigt, dass Filme auf Zuruf auf dem Bildschirm erscheinen können, egal ob sie aus einem Fernsehprogramm, einer Onlinevideothek oder aus dem Internet kommen, dann gehört auch die TV-Bedienung 2012 ins Technikmuseum.