Abschied vom Tastenwahlblock – Sprachsteuerung als „Tipping Point“ des mobilen Internets

Lösungen von Nuance für die Automobilbranche
Lösungen von Nuance für die Automobilbranche
Mobile Computer und Navis setzen sich nach einem Bericht des Computer Informationsdienstes (CID) immer mehr durch. Doch wer unterwegs auf den Rechner zugreifen möchte, hat nicht immer die Hände frei oder muss die Augen auf seine Umgebung richten. Hier sehen die Marktforschungsexperten der Datamonitor Group die größten Chancen für Sprachsteuerungs-Applikationen. Die weltweiten Umsätze mit sogenannter „Advanced Speech Recognition” (ASR) sollen demnach in Smartphones und mobilen Kleinrechnern von 32,7 Millionen US-Dollar im Jahr 2009 auf 99,6 Millionen US-Dollar im Jahr 2014 steigen. Für die Spracherkennung in Fahrzeugen sagen die Analysten eine Steigerung von jetzt 64,3 Millionen US-Dollar auf 208,2 Millionen US-Dollar im Jahr 2014 voraus.

Sprachsteuerung für mobile Geräte
Sprachsteuerung für mobile Geräte
Sprachcomputer zählen auch für die Suchmaschinen zu den wichtigsten Instrumenten, um das mobile Internet bequem bedienen zu können. So bietet Yahoo ab sofort die Handy-Applikation „oneSearch Voice“ für Smartphones und das iPhone in Deutschland an. Das lästige Tippen auf der kleinen Tastatur oder dem Touch-Screen falle weg. Es genüge jetzt, den Suchbegriff per einfach auszusprechen. Die Darstellung der Ergebnisse werden für Handy-Displays optimiert angezeigt: Statt langer Linklisten liefere Yahoo nach Kategorien gegliederte Antworten. Sucht man beispielsweise mit der gesprochenen Eingabe „Bundesliga“ nach aktuellen Fußballergebnissen, erhält man eine Vielzahl von detaillierten Resultaten wie aktuelle Spielstände, Tabellenübersichten, Fotos sowie weiterführende Links. Die Ergebnisse sind nach Angaben von Yahoo übersichtlich in Kategorien aufbereitet. „Das System ist lernfähig: Es passt sich immer besser an die individuelle Sprechweise seines Nutzers an, je häufiger es eingesetzt wird. Während die meisten mobilen Spracherkennungssysteme auf einzelne Kategorien wie lokale Suchen spezialisiert sind, bietet wir den Nutzern die Möglichkeit, offene Suchanfragen zu stellen – mit hoch relevanten Ergebnissen für jede Art von Spracheingabe“, erklärt Michael Stenberg, Partner Director Central & Eastern Europe Yahoo! Mobile. Stenberg. Wer es dennoch lieber klassisch mag, könne nach wie vor auch die herkömmliche Texteingabe nutzen.

tipping pointDurch das Spracherkennungs-Feature will Yahoo seine Position als zentraler Einstiegspunkt ins mobile Internet festigen. Die Applikation kann unter http://de.m.yahoo.com/voice direkt auf unterstützte Handys oder über den iTunes Store auf das iPhone heruntergeladen werden. Die Sprachsteuerung wird von Web 2.0-Pionier Tim O’Reilly http://radar.oreilly.com sogar als „Tipping Point“ gewertet: Der Begriff bezeichnet jenen Moment, in dem etwas Einzigartiges zum Normalzustand wird und einen qualitativen Umschlagspunkt markiert. „Es ist es an der Zeit, Telefone als erstklassige Geräte zu sehen, um auf das Internet zugreifen zu können, und nicht nur als Möglichkeit, Inhalte und Anwendungen umzuwidmen, die ursprünglich dazu gedacht waren, mit einer Tastatur und einem Bildschirm gelesen zu werden“, meint O’Reilly.

Tastenwahlblock auch digital bislang nicht tot zu kriegen
Tastenwahlblock auch digital nicht tot zu kriegen
Auch in der ITK-Branche erwartet man Impulse von der Sprachsteuerung: „Computer werden heute immer noch primär über eine Tastatur bedient, die aus der Schreibmaschine entstanden ist, so als ob jeder Tastendruck einen mechanischen Hebel in Bewegung setzt. Selbst der Zeilenvorschub und Wagenrücklauf alias Carriage return ist uns erhalten geblieben, obwohl damit schon lange kein Papier mehr transportiert wird. Telefone haben zwar die Revolution von der Wählscheibe hin zur – in der Regel – 3×4 Tastatur gemacht, standardisiert nach ITU E.161, das erfolgte aber bereits in den 70er Jahren. Selbst moderne Handys und Smartphones halten sich noch an den Tastenwahlblock, entweder in mechanischer Ausführung oder als Icon-Darstellung auf einem Touchscreen“, weiß Andreas Latzel, Deutschland-Chef des ITK-Spezialisten Aastra, der viel Wert auf die Benutzerfreundlichkeit seiner Systeme legt. Die Technikentwicklung verlaufe zwar rasant, im Kern aber immer noch traditionell. Vorhersehbar sei, dass der Tastaturblock an seine Grenzen stoße – spätestens mit der breiten Einführung der SIP-Telefonie und der SIP-Teilnehmeradressen.

„Anders als bei professionellen Tischgeräten kommt die Ausstattung von Handys mit alphanumerischen Tastaturen zwar auch vor, ist aber in der Regel wegen der beschränkten Abmessungen nicht befriedigend. Da bietet sich der Weg zum Sprachinterface an: der Ansage von Adressen oder Einträgen des Telefonbuchs in normaler Sprachform. Sinnvoll ist das beim Autofahren oder anderen Tätigkeiten, die beide Hände verlangen“, erläutert Latzel. Noch interessanter werde die Sprachsteuerung nach Ansicht von SemanticEdge-Geschäftsführer Lupo Pape, wenn Wissen über die Domäne und Dialogintelligenz hinzukommen. „Dann kann man von Sprachdialogsystemen sprechen. Das ist das, was wir mit dem Personal Assistant umsetzen. Dazu müssen die Wissensgebiete semantisch aufbereitet und Dialogstrategien hinterlegt werden. Die wichtigsten Use-Cases gilt es zu modellieren“, resümiert Pape.

My voice is my password: Weg mit den verfluchten PINs, TANs und Passwörtern

Hier bin ich Mensch, hier kann ich warten
Hier bin ich Mensch, hier kann ich warten

Mehr Sicherheit, geringere Kosten, schnellere Abfertigung: Von biometrischen Passkontrollen erhoffen sich Flughäfen und IT-Konzerne gute Geschäfte. Das berichtet die Financial Times Deuschland (FTD). Ein Scanner für den Reisepass, einer für Fingerabdrücke, eine Kameras, um Fotos zu machen, die ein Computer mit dem im Pass vergleicht. Glastüren, die sich öffnen, wenn alles seine Richtigkeit hat. So sieht das vom Beratungshaus Accenture entwickelte Zukunftsszenario für den Einsatz von biometrischen Systemen aus. „Jährlich passieren knapp 800 Millionen Reisende Kontrollstellen in der EU. Gegenüber der herkömmlichen Ausweiskontrolle, die mit etwas 3,68 Dollar pro Person zu Buche schlägt, kostet eine automatisierte nur noch 0,16 Dollar, rechnet der internationale Dachverband der Fluggesellschaften IATA vor“, so die FTD. Auch die Warteschlangen vor den Aberfertigungsschaltern könnten schrumpfen und zu einem sinkenden Raumbedarf beitragen. Freiwerdende Flächen ließen sich verpachten und neue Terminals benötigen weniger Platz.

HIS MASTER'S VOICE
HIS MASTER’S VOICE

Vorteile sehen Experten auch bei sprachbiometrischen Verfahren. Das Wuchern von Karten und Identitäten wird zunehmen als lästig und widersinnig empfunden, wenn man mehrere Karten ziehen muss, um einen einzigen Prozess durchzuführen, etwa beim Bezahlen im Geschäft mit Kundenkarte und Kreditkarte. „Das Kartenhaus der tausend Egos stürzt spätestens zusammen, wenn das Plastikpaket gestohlen oder verloren wird. Ein besonders fruchtbares Biotop für den Wildwuchs täglich neuer Identitäten ist das Internet, angereichert durch ebenso viele Passwörter“, bemängelt der Systemarchitekt Bruno Weisshaupt, Geschäftsführer von origo.

Erhebungen des Statistischen Bundesamtes zufolge muss sich jeder Bundesbürger im Schnitt rund sechs so genannte Pins merken. Der Datenschutzbeauftragte der Bundesregierung sieht die Grenzen der Merkfähigkeit bereits erreicht. Im Extremfall werde die Geheimzahl sogar schon auf die EC-Karte geschrieben, damit man sie beim Abheben am Geldautomaten gleich zur Hand hat. „Mit der Einführung von weiteren Verfahren wie dem elektronischen Personalausweis, ELENA und der elektronischen Gesundheitskarte wird die Zahl der zu merkenden PINs und Passwörter noch steigen. Ich selbst halte eine PIN-Anzahl von zwölf pro Bundesbürger für nicht unrealistisch“, so Peter Schaar. Nach einer Studie des Spracherkennungs-Spezialisten Nuance vergisst in Deutschland mittlerweile mehr als jeder zweite Befragte wichtige Passwörter oder PINs.

Mit dem Einsatz von so genannten Voice Prints könnte man das schnell ändern. „Sprachbiometrische Verfahren basieren auf der individuellen Beschaffenheit der menschlichen Stimme: Der komplexe Aufbau der Sprechorgane sorgt dafür, dass jede Stimme einzigartig ist, und Menschen daher anhand ihrer Stimme eindeutig unterscheidbar sind. Die Sprechorgane, also Stimmbänder, Mundhöhle, Kehle, Nase, Kiefer und Gaumen mit der individuellen Anordnung und Beschaffenheit der Muskeln des Mund es und Rachenraumes sind bei jedem Menschen unterschiedlich. Sie ermöglichen es, in Verbindung mit der angelernten Sprechweise, einen Menschen anhand seiner Stimme eindeutig zu identifizieren“, weiß Michael-Maria Bommer, Nuance-General Manager für Deutschland, Österreich und Schweiz.

Entscheidend sei, dass bei der Sprachbiometrie nicht einfach ein Vergleich zwischen einem aufgezeichneten Wort oder Satz und dem „Iive“ ausgesprochenen Wort oder Satz hergestellt werde. Vielmehr gehe es um die einzigartigen Charakteristika der Stimme, wie sie sich aus dem individuellen Sprechapparat und der individuellen Sprechweise ergeben. „Bewertet das System die Übereinstimmung zwischen dem aktuellen Stimmmuster und dem gespeicherten Sprachabdruck als zureichend hoch, wird der Zugriff gestattet. Es handelt sich also um eine robuste Technologie, die die Charakteristika einer Stimme auch bei Erkältung oder anderen Veränderungen der Stimme erkennt, eben weil es sich nicht um einen 1 zu 1-Vergleich von gespeicherter und gesprochener Sprache handelt“, erläutert Bommer. Der Schutz persönlicher Daten und Maßnahmen gegen den Identitätsdiebstahl seien der Hauptgrund für alternative Authentifizierungsverfahren, sagt Unternehmensberater Thomas Wind von TellSell Consulting. Wenn ein namhafter Player mit einer Sprachbiometrie-Anwendung für Konsumenten auf den Markt gehe, dann werden andere sehr schnell folgen. „Ein Massenmarkt entsteht, wenn sich ein oder mehrere Anbieter für Zertifizierungsdienste im Sinne eines TrustCenterKonzeptes etablieren würden. Ein Kunde könnte dann mit einer einmaligen Registrierung diesen Dienst bei mehreren teilnehmenden Unternehmen oder Behörden nutzen. ‚My voice is my password’ könnte dann Common Sense werden”, prognostiziert Wind.

„Sagen Sie ‚Bananen'“: Warum Sprachcomputer Prozesse automatisieren sollten und nicht Menschen – Auf den Spuren von Hofkammerrat Kempelen

Wird über Sprachautomatisierung debattiert, fallen sicherlich jedem Konsumenten sofort eine Reihe nerviger Hotline-Ansagetexte ein, die den Blutdruck in Wallung bringen. Trefflich auf die Spitze getrieben im Werbefilm von Yello Strom am Obststand mit dem roboterhaften Verkäufer und seinem Ansagetext: „Interessieren Sie sich für unsere Bananen, sagen Sie ‚Bananen’……“ Dem Stand der Forschung und dem Ansinnen der Wissenschaftler werden die endlos kolportierten Negativbeispiele nicht gerecht. Schon im 18. Jahrhundert war der Hofkammerrat Wolfgang von Kempelen unter Maria Theresia und Joseph II. davon beseelt, eine Sprechmaschine zu erfinden, die dem Menschen nützt: Der aufklärerisch gesinnte Beamte konstruierte einen Apparat, der gehörlose Menschen zur Lautsprache führen konnte. Die Maschinen-Sprache sollte nicht nur hörbar, sondern vor allem für das Auge verständlich werden. Kempelen äußerte sich optimistisch, „dass die Maschine ohne sonderliche Kunst mit Tasten, wie ein Klavier oder eine Orgel einzurichten wäre, dass Spielen auf derselben, gegen die dermalige Art Jedermann viel leichter fallen würde“, berichtet 1792 das „Magazin für das Neueste aus der Physik und Naturgeschichte“ (Band 8, Seite 101).

Die Idee, dass ein lebendiger Organismus gemäß den Gesetzen von Physik funktioniert und prinzipiell mit Mitteln der Mechanik simuliert werden kann, war spätestens seit dem 17. Jahrhundert nicht länger unklar und verdächtig, sondern wissenschaftliche Hypothese. Die Pionierarbeit von Kempelen wirkte bis ins 20. Jahrhundert: auf Persönlichkeiten wie Charles Babbage, dem „Father of computing“, Homer Dudley, der den Voice Operation Demonstrator (VODER) baute oder auf Mathematiker wie John von Neumann und Norbert Wiener, die sich mit Sprache und Logik beschäftigten. Durch die Sprachsteuerung per Computer ist das Kempelen-Werk sicherlich nicht mehr relevant. „Wissenschaftsgeschichtlich jedoch ist es nach wie vor von Bedeutung, ebenso seine Ansichten und seine philosophische Betrachtungsweise“, erläutert die Kempelen-Expertin Alice Reininger von der Universität für angewandte Kunst in Wien.

Auch heute gehe es nach Ansicht von Andreas Latzel, Deutschlandchef der Aastra-Gruppe, bei der Sprachtechnologie um einen humanitären Ansatz: „Es sollen Prozesse automatisiert werden und nicht Menschen“. Als Beispiel nennt er die Altenpflege. Die von seiner Firma entwickelte Technik soll Pflegedokumentationen in der stationären Altenhilfe einfacher, schneller und besser machen: „So ist eine Nachtschwester für viele Bereiche und Bewohner zuständig und kann nicht alle Akten ständig bei sich tragen. Die Spracherfassung über das mobile Telefon vereinfacht die Dokumentation, sichert die Qualität und spart nebenbei noch Zeit“, sagt Latzel.

Wichtige Erfahrungen mit dem Aastra-Programm OPAS Sozial wurden in dem vom Bundesministerium für Familie, Senioren, Frauen und Jugend geförderten Pilotprojekt „Das intelligente Heim“ gesammelt und von Pflegewissenschaftlern ausgewertet: „Mithilfe der Spracherkennung wird deutlich mehr direkt und zeitnah im Anschluss an die Pflegeleistung dokumentiert. Der Anteil der Personen, die direkt im Anschluss an Maßnahmen dokumentieren, ist von 46 auf 70 Prozent gestiegen. Unter Berücksichtigung des deutlich gestiegenen Dokumentationsvolumens hat die eigentliche Dokumentationszeit abgenommen. So geben über 73 Prozent der Befragten an, bei der Dokumentation mit Spracherkennung deutlich Zeit zu sparen“, so der vorläufige Abschlussbericht.

Über 93 Prozent der beteiligten Mitarbeiter gaben zu Protokoll, dass die Dokumentationsanwendung mit Spracherkennung leicht bedienbar sei. 90 Prozent der Pflegekräfte wollen mit dem Prototyp oder einem ähnlichen System weiterarbeiten. 85 Prozent der Umfrageteilnehmer würden die Dokumentation mittels Spracherkennung anderen Dokumentationsmethoden vorziehen. Eine funktionierende Spracherkennung unterstütze die Dokumentation, so dass zahlreiche Einsatzgebiete der Spracherkennung – weit über die Erstellung des Verlaufsberichts hinaus – denkbar seien. „70 Prozent der Pflegekräfte geben an, dass das Dokumentationsvolumen und die Dokumentationsqualität im Rahmen der Dokumentationsarbeit mit der Spracherkennung deutlich gestiegen sind. Dies wird auch durch die entsprechenden Leiter der Heimträger bestätigt“, so das Fazit der Pflegewissenschaftler. Auf der Call Center World in Berlin wird Aastra branchenspezifische Lösungen vorstellen, unter anderem das multimediale Sprachdialogsystems Aastra Voice Portal 7.5. Nach Firmenangaben versteht es umgangssprachliche Äußerungen ebenso wie komplette Sätze und lässt sich jederzeit unterbrechen. Darüber hinaus werden die Antworten anhand des bisherigen Dialogverlaufs und der jeweiligen Aufgabenstellung generiert. Sind beispielsweise im Kino Filme noch nicht angelaufen oder keine Karten mehr verfügbar, werden Anrufer frühzeitig informiert und müssen sich nicht erst durch die gesamte Dialogstruktur quälen – wie bei menügesteuerten Systemen.

Google-Internet Evangelist Vint Cerf: Internet der nächsten Generation wird mobil und intelligent

Experten gehen davon aus, dass im nächsten Jahrzehnt ungefähr 70 Prozent der Bevölkerung einen mobilen oder festen Zugang zum Internet mit wachsenden Höchstgeschwindigkeiten bis zu mehreren Gigabits pro Sekunde haben werden. Wir können mit Zuversicht voraussagen, dass mobile Geräte zu einer bedeutenden Komponente des Internets werden. Das gilt ebenso für jegliche Art von Vorrichtungen und Sensoren. Viele der Inhalte und Informationen des Internets, ob über einen mobilen oder festen Zugang abrufbar, werden sowohl geographische als auch logistische Standortfragen beantworten können. Wenn Sie beispielsweise ein Hotelzimmer betreten, wird Ihr Mobilgerät zeitgleich die exakte Information zu dem Standort und der Zimmernummer erhalten. Wenn Sie den Laptop einschalten, wird er diese Information ebenfalls empfangen – entweder durch Ihr Mobilgerät oder durch das Zimmer selbst“, erklärt Chief Internet Evangelist von Google http://www.google.com/corporate/execs.html. Nach der Aktivierung werde es für die Geräte ein Routinevorgang sein, herauszufinden, welche anderen Geräte in der näheren Umgebung noch eingeschaltet sind. Über RFID könne das Handy zudem unterschiedliche Gegenstände identifizieren.


Das Internet werde nach Auffassung des Google-Vordenkers auch das Medium Video verändern. „Während das Video heute noch überwiegend in der zeitlich programmierbaren Standard-Ausführung vorliegt, wird es in Zukunft zu einem interaktiven Medium heranreifen, bei dem die Auswahl bezogen auf Inhalt und Werbung maßgeblich vom Verbraucher bestimmt wird. Durch die Produktpositionierung erhalten die Nutzer die Möglichkeit, eigene Interessengebiete auf den vorhandenen Sichtfeldern anzuklicken, um mehr Informationen zu erhalten“, so Cerf. Durch Hyperlinks werde es möglich sein, die Rennszenen in Star Wars I mit dem Wagenrennen in Ben Hur in Beziehung zu setzen. „Das neue Format der konventionellen Videokonferenz wird durch den Einsatz von Robotern verbessert, die sich per Fernbedienung steuern lassen, sich fortbewegen, Kameras und Mikrofone einstellen und sogar direkt mit der lokalen Umgebung interagieren können – und das alles wird vom Nutzer selbst bestimmt und kontrolliert“, betont Cerf.

Selbst ein Waschmittelkarton könne Teil einer Dienstleistung werden, indem Waschmaschinen mit Internetfunktion durch Web-basierte Services bedient werden, die die Waschmaschine konfigurieren und aktivieren. „Wissenschaftliche Messungen und Experimentier-Ergebnisse werden gebloggt und automatisch in allgemeine Datenarchive eingetragen, um die Verbreitung, das Austauschen und die Wiederherstellung der Experimentier-Ergebnisse zu ermöglichen. Man kann sich sogar vorstellen, dass wissenschaftliche Instrumente in der Lage sein werden, ihre eigenen Datenblogs zu generieren“, glaubt Cerf. Alles was in unserer Vorstellungskraft einen Platz finden könnte, habe auch eine gute Chance auf Programmierbarkeit. „Dass sich Evangelisten wie Vint Cerf über solche Themen äußern, gehört zu ihrem Job. Die Inhalte indes sind nichts neues. Bereits vor 15 Jahren diskutierten wir über Kühlschränke, die den Füllstand der Milch anzeigen und eine Einkaufsliste pflegen“, sagt Dr. Andreas Rebetzky, Director Global Information Technology bei Bizerba http://www.bizerba.de/de. Man müsse die Möglichkeiten des Internets stärker nach Qualität filtern. „Wir müssen selektieren, welche Dienste wir in Anspruch nehmen, um unser Leben zu bereichern. Neue Anwendungen sprießen wie Pilze aus dem Internet, zumeist im Endkundenmarkt. Für Professionals wird das Eis dünner: Hier ist Stabilität, Zuverlässigkeit, Robustheit gefordert. Leider bekommen wir durch die Bankenkrise den Eindruck, dass auch dort manchmal der Gameboy vor der Vernunft genutzt wurde“, warnt Rebetzky.

 

Unbestritten sei allerdings der Trend, dass mobile Endgeräte sich zu sehr nützlichen Ratgebern entwickeln. Aktuelle Forschungsergebnisse der Künstlichen Intelligenz (KI) ermöglichen virtuelle Einkaufsassistenten, die den Käufer im Supermarkt persönlich beraten. „Er bekommt auf Wunsch nicht nur spezielle Hinweise auf Allergene in den Produkten und passende Sonderangebote sondern auch aktuelle Preisvergleiche auf dem Flachbildschirm an seinem Einkaufswagen angezeigt. Jedes Produkt hat ein digitales Produktgedächtnis, das zum Beispiel für eine Tomate anzeigt, wann und wo sie geerntet, wie lange sie wie gekühlt wurde. Durch die RFID-Technologie gelingt es, ‚sprechende Produkte’ zu entwickeln, die dem Käufer seine Fragen im Sprachdialog beantworten. Mit einem Navigationssystem am Einkaufswagen wird der Käufer rasch zu den gewünschten Warenangeboten geführt“, so Professor Wolfgang Wahlster, Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) http://www.dfki.de in Saarbrücken und Schirmherr der Voice Days http://www.voicedays.de. Die Einschränkungen der Nutzerschnittstellen bei mobilen Geräten werde man in Zukunft durch Sprachsteuerung kompensieren. „Die Endgeräte werden immer kleiner, Displays und Tastaturen sind immer weniger standardisiert. Hier können moderne Sprachdialogsysteme ihre Stärken ausspielen und intelligente Assistenzsysteme zur Entfaltung bringen“, resümiert Lupo Pape, Geschäftsführer von SemanticEdge http://www.semanticedge.de. Mit dem „Best Practice Award“ für das Freenet Kundenserviceportal gewann sein Unternehmen den Hauptpreis der diesjährigen Voice Days in Wiesbaden.

medienbüro.sohn/NeueNachricht/Zehn Jahre Google und das Endspiel um die Vorherrschaft im Internet

In den vergangenen zehn Jahren hat Google das Suchen und Finden im Internet revolutioniert. Jetzt stößt der Gigant in neue Geschäftsfelder vor. „Umwelt, Gesundheit, Bibliotheken – überall hat Google die Finger im Spiel. So könnte die Zukunft aussehen: Das grenzenlos mobile Internet wird künftig gesteuert über webbasierte Software, ist jederzeit und überall einsetzbar. Spracherkennung macht den Blick auf das Display überflüssig“, spekuliert Welt-Online http://www.welt.de und wird von Branchenexperten bestätigt: „Google hat schon vor Jahren die Spracherkennung als Schlüsseltechnologie für seine Expansionspläne entdeckt. So beobachten wir seit längerer Zeit wie der Suchmaschinen-Gigant in die Erforschung der Einsatzfelder von Sprachtechnologie und Entwicklung eigener Produkte investiert. Für Google ist der Einsatz von Spracherkennung ein strategisches Projekt im Rahmen der selbsternannten Mission ‚Organize the world’s information’. Denn das Internet wächst und dehnt sich aus – es wird immer mehr zum Bewegtbild und zum mobilen Medium“, sagt Bernhard Steimel, Sprecher der Brancheninitiative Voice Business, die Mitte Oktober in Wiesbaden den Kongress Voice Days http://www.voicedays.de/

veranstaltet. 

Die Rolle der Sprachtechnologie könne man anhand von drei Zielen erläutern, die auch als Entwicklungsstufen eines strategischen Plans von Google betrachtet werden können: „Es soll in der ersten Stufe einen einfachen Zugang zu Internet-Suchdiensten auch per Telefon geben. Der Zugang soll von überall und über jedes Endgerät möglich sein – die Sprachsteuerung dient als Dialogmedium. In der zweiten Stufe wird die Suchfunktion auf nicht-textbasierte Informationen wie Audio- und Video-Content ausgeweitet. Die Sprachtechnologie dient hier als Analyse-Medium. In der dritten Stufe wird man die Suche auf andere Trägermedien ausdehnen und alle Inhalte, auch lokale, erfassen. Die Sprachtechnologie wird dann als Eingabemedium eingesetzt“, erläutert Steimel im Gespräch mit dem Bonner Magazin NeueNachricht http://www.ne-na.de.

 

Erste Maßnahmen habe Google bereits eingeleitet. Ein Spracherkenner sei bereits entwickelt worden, der mit Daten aus der Telefonauskunft 0800-GOOG-411 http://www.google.com/goog411/

gefüttert werde. „Mit dem Start des Video Search Dienstes geht man noch einen Schritt weiter. Wenn auch Videoinhalte anhand von konkreten Äußerungen in die Suchfunktionen einbezieht, lässt sich die Online-Werbung passgenau platzieren und kann generell für die Werbeindustrie die Media-Analyse effizienter im Internet betrieben werden“, glaubt Steimel.

 

Je mehr das Handy zum Computer werde und als Multimedia-Speicher und Abspielmedium fungiere, desto mehr werden nach den Plänen des Mountain View-Konzerns auch hier Suchdienste vonnöten sein. Dabei stoße die Tastatur als Eingabemedium an ihre Grenzen, denn die Eingabe von Suchanfragen über die Zifferntastatur sei wenig komfortabel. Spracherkenner könnten zu einer Vereinfachung beitragen: „Vor diesem Hintergrund erlangt das Google-Betriebssystem Android eine zusätzliche Bedeutung – die Spracherkennung wird wohl direkt mit eingebaut“, erwartet Steimel. Google, frohlocken seine Freunde und fürchten seine Feinde, werde auch in den nächsten zehn Jahren das Cyberspace entscheidend prägen.

 

„Mit diversen Projekten und Beteiligungen hat sich der Suchmaschinenkonzern schon in Position gebracht“, berichtet Welt-Online: Nach den Worten von Vorstandschef Eric Schmidt will Google eines Tages ein „Supercomputer“ sein, über den die Nutzer alles online erledigen können. Jede Anwendung wäre internetbasiert und der Kauf von externer Software überflüssig. Ob Mailen, Surfen, Textverarbeitung, Präsentationen, Buchhaltung oder Statistik, alles würde von riesigen Serverfeldern ausgehen und Google wäre deren Eintrittstor und Gehirn zugleich. Das Stichwort dafür heißt Cloud-Computing: Es läutet nach Auffassung von FAZ-Redakteur Holger Schmidt das Endspiel um die Vorherrschaft im Internet ein: „Dokumente, Internetseiten, Fotos und Videos müssen künftig nicht mehr auf dem heimischen Rechner abgelegt werden, sondern irgendwo ‚in der Wolke’, womit riesige, über die ganze Welt verteilte Datenzentren gemeint sind. Die Internetnutzer können dann überall und mit allen Geräten auf ihre Daten zugreifen und mit anderen Nutzern teilen.“

 

Was werde Google in zehn Jahren sein? „Wenn es nach dem Willen von Larry Page ginge, dann wäre Google eines Tages eine perfekte künstliche Intelligenz, die ‚alles weiß, und das heißt, dass man alles wird tun können’“, schreibt Welt-Online. Dann werde Google vielleicht nicht nur suchen und finden, sammeln und verbreiten, sondern auch fragen und antworten, bewerten, belohnen und bestrafen. Google werde dann zu einer mächtigen Denkmaschine.

 

Siehe auch:

 

http://www.digitalnext.de/die-google-oekonomie

 

http://www.faz.net/s/Rub4C34FD0B1A7E46B88B0653D6358499FF/Doc~ECF21B6D568F948389F884C3CFC556A8D~ATpl~Ecommon~Sspezial.html

 

http://www.welt.de/webwelt/article2400155/Die-Google-Zukunft-Vom-Suchen-zum-Denken.html

 

http://www.absatzwirtschaft.de/Content/Online-Marketing/News/_pv/_p/1003186/_t/ft/_b/64088/default.aspx/google-hat-bei-der-spracheingabe-die-nase-vorn—microsoft-kann-kontern.html

 

http://www.pte.at/pte.mc?pte=070412027

 

http://www.nmz.de/kiz/modules.php?op=modload&name=News&file=article&sid=11457

Semantisches Web und das Ende der Google-Erfolgsstory – Suchmaschinen sollen mit Alltagswissen ausgestattet werden

Vision und Praxis von so genannter Semantik- und Web-2.0-Technologie thematisierte die Konferenz Triple-I in Graz: Mit der Einbindung von Alltagswissen will Henry Lieberman vom MIT dafür sorgen, dass Computer Menschen tatsächlich verstehen.

„Wenn wir wollen, dass Computer Menschen wirklich helfen, dann brauchen die Rechner Zugriff zu Alltagswissen“, so Henry Lieberman, Leiter der Software Agent Gruppe am Massachusetts Institute of Technology MIT, auf der Wissensmanagement-Konferenz Triple-I.

Dazu sammelt sein Team grundlegende triviale Informationen und entwickelt daraus Ontologien, um beispielsweise die den Satz „Ich bin gefeuert worden“ richtig zu deuten. Mit deren Hilfe wird das Wissen in maschinenlesbare Informationen übersetzt.

Entsprechende Systeme könnten Anwender nach einem Bericht der Computer Zeitung (die es ja schon seit einiger Zeit nicht mehr gibt, gs) zum Beispiel bei der Terminplanung unterstützen. Die Software erkennt etwa, dass der Nutzer für eine bestimmte Verabredung einen Routenplaner oder eine Hotelreservierung benötigt. Dies kann das System verstehen, da es die grundlegende Information hat, dass ein Termin den Aufenthalt an einem anderen Ort erfordert.

„Solche Technologien können laut Lieberman auch in anderen Szenarien zum Einsatz kommen wie etwa bei der Kundenbetreuung oder beim Helpdesk. Ebenso gibt es Versuche, Suchmaschinen mit Alltagswissen auszustatten. Anwender könnten dann Anfragen in natürlicher Sprache eingeben. Damit verheißt der Wissenschaftler das Einlösen des Versprechens, das die semantischen Technologien von Beginn an begleitet: Die Möglichkeit, dass Computer ihre menschlichen Nutzer tatsächlich verstehen“, so die Computer Zeitung.

„Mit der semantischen Suche versucht man die Ergebnisse der Sprachforschung zu nutzen, um Suchbegriffe oder natürlich-sprachliche Suchanfragen tiefer zu analysieren und semantisch anzureichern. Suchergebnisse sollen am Ende präziser und besser strukturiert herausgegeben sowie um viele andere, nahe liegende Themengebiete angereichert werden. Idealerweise kann eine gestellte Frage dann auch in einem Satz beantwortet werden“, erklärt Sprachdialogexperte Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Diesem Trend entgegen komme die immer stärkere semantische Aufbereitung der Webinhalte in vielen Suchbereichen durch Internetnutzer, die weltweit in Netzwerken aktiv seien. Das beste Beispiel hierfür sei Wikipedia. Und genau da setzt die von Microsoft übernommene Firma Powerset an.

„Sie versucht, diese schon strukturiert eingegebenen Inhalte noch besser ‚suchbar’ zu machen und dabei auch natürlich-sprachliche Eingaben zu interpretieren. Das Ergebnis ist sehr viel spannender als die Google-Suche mit den endlosen Trefferlisten“, meint Pape gegenüber NeueNachricht. Das sei genau der richtige Weg und könnte der Anfang vom Ende der Google-Erfolgsstory werden.

Gekoppelt mit Spracherkennung und Sprachsynthese komme man zu ganz neuen Sucherfahrungen.

„Eine gesprochene Frage zu einem beliebigen Thema wird auch durch einen gesprochenen Satz beantwortet. Dieses Szenario ist keinesfalls Science-Fiction, denn parallel zu den Fortschritten in der Suchtechnologie macht auch die Spracherkennung Entwicklungssprünge. Auch die Dialogtechnologie spielt hier ein bedeutende Rolle, da bei vielen Anfragen weiterführende Fragen und Präzisierungen erforderlich sind, die einen intelligenten Dialog erforderlich machen“, sagt Pape.

Die Frage „Wie komme ich jetzt am schnellsten nach Berlin?” mache die Klärung erforderlich, ob man mit dem Zug, dem Auto oder dem Flugzeug reisen möchte.

„Es wird noch lange dauern, bis die vielen Fragen, die irgendjemand zu irgendeinem Zeitpunkt hat. beantwortet werden können. Aber in vielen Domänen, in denen die Informationen semantisch schon sehr gut erschlossen und die wichtigsten Nutzungsszenarien klar sind, ist jetzt schon vieles möglich. Beispielsweise Fahrplaninformationen und Navigationssysteme, um von A nach B zu kommen. Oder Wissensfragen, die über Dienste wie Wikipedia beantwortet werden“, resümiert Pape.

Update vom 26. August 2013: Die Prognose über das Ende der Google-Erfolgsstory lag wohl etwas daneben. Auch beim semantischen Web wartet man ja noch auf dem Durchbruch im Massenmarkt…..

Schulklassen können Mensch-Maschine-Kommunikation testen

Der beliebte Spielzeugroboter Mindstorms von Lego bewegt sich und kann über Sensoren seine Umgebung wahrnehmen. Wissenschaftler der Universität des Saarlandes haben ihm auch das Sprechen beigebracht und dafür ein einfach zu bedienendes Sprachdialogsystem entwickelt, das sich besonders für den Schulunterricht eignet. Für die Verständigung mit dem Roboter sorgt das System DialogOS von der Firma CLT Sprachtechnologie, einer Ausgründung des Computerlinguisten Professor Manfred Pinkal von der Universität des Saarlandes. Die Software mit grafischer Benutzeroberfläche ist für den Unterricht auch an Unis konzipiert und unterstützt Lego Mindstorms sowie andere vergleichbare Bausätze – Programmierkenntnisse werden nicht vorausgesetzt. In kurzer Zeit können kleine Dialoge gestaltet werden, um dem Roboter Anweisungen zu geben oder mit ihm die nächste Aktion auszuhandeln. Die Schnittstelle zum NXT-Stein, dem „Gehirn“ des Roboters, macht es möglich, dass Sprachkommandos direkt in Bewegungsprogramme umgesetzt werden.

So berichtet der Roboter, was er über seine Sensoren sieht oder fühlt. Er fragt dann nach Informationen, die er für seine nächsten Aktionen braucht. Die integrierte Spracherkennung und Sprachausgabe machen es möglich, den Dialog in einer natürlichen Gesprächssituation direkt auszuprobieren: „Das ist ein wichtiges Kriterium für die Akzeptanz von automatischen Sprachsystemen. Der Mensch sollte mit seiner Alltagssprache komplexe Geräte steuern können. Häufig ist das aber nicht der Fall. Da muss man sich den Restriktionen der Maschine anpassen und das führt schnell zu Frustrationen“, weiß Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Mit dem Lego-Roboter bestehe die Möglichkeit, spielerisch die Anwendungsmöglichkeiten von Sprachdialogsystemen zu testen. „Nur so kann man Ängste und Hemmungen bei der Mensch-Maschine-Interaktion abbauen. Das Projekt sollte bundesweit in allen Schulen zum Einsatz kommen“, fordert Sprachdialogexperte Pape. Der Einsatz von Lego-Baukästen im Informatikstudium und im Schulunterricht ist auch nach Ansicht von Bernhard Steimel, Sprecher der Voice Days, eine phantastische Möglichkeit, um Sprachtechnik in Produkten des Alltags verstärkt einzusetzen.

„Wer heute ein Videogerät, Handy oder einen Fotoapparat kauft, muss sich erst umständlich durch Menüs und Bedienungsanleitungen kämpfen. Besser wäre es, wenn man dem neuen Gerät einfach sagen könnte, was man von ihm will und zwar so, wie man mit einem anderen Menschen reden würde“, so Steimel.

Den Stand der Technik und die Zukunft der automatischen Sprachdialogsysteme dokumentiert der Fachkongress „Voice Days“, der in diesem Jahr in Wiesbaden stattfindet.

Alle Schulklassen, die sich für das Thema „Mensch-Maschine-Kommunikation“ interessieren, können kostenlos die Fachausstellung der „Voice Days“ vom 15. bis 16. Oktober 2008 in den Rhein-Main-Hallen in Wiesbaden besuchen: „Wir bieten für Schüler und Lehrer spezielle Führungen, um zu erfahren, wie man ‚Dirigent’ der Mensch-Maschine-Kommunikation wird. So muss ein professioneller Sprachdialoggestalter Kenntnisse über Musik, Töne und Stimmen mitbringen, um sie als akustische Wegweiser einzusetzen. Wir zeigen den Nachwuchskräften, wie wichtig die Ingenieurwissenschaften und die Forschung für Künstliche Intelligenz sind, um Technik für Menschen leichter benutzbar zu machen: Behindertengerechte Fahrkartenautomaten, Navigationsgeräte ohne Tasteneingabe, Service-Roboter in der Altenpflege oder die Entwicklung von virtuellen persönlichen Assistenten. Experten des Fraunhofer-Instituts, des Deutschen Forschungszentrums für Künstliche Intelligenz und Vertreter der wichtigsten Technologiefirmen unserer Branche stehen den Schülern als Ansprechpartner zur Verfügung“, so Steimel.

Mit Spracherkennung Politikern auf den Zahn fühlen – Neue Google-Suchfunktion „Elections Video Search“ soll amerikanischen Wahlkampf transparenter machen

Wer kennt das nicht: Gerade zu Wahlkampfzeiten verlieren sich Politiker in ihren Reden oftmals in Floskeln, Endlosschleifen und rhetorischen Leerformeln – die wichtigen Informationen werden darunter verschüttet.. Um dem zu entgehen, bietet Google eine neue Suchfunktion an. Google Elections Video Search wandelt die Reden der Politiker in Texte um und synchronisiert sie mit den Videos auf YouTube. Der Zuschauer muss sich nicht mühevoll die langatmigen Reden ansehen, sondern kann den Politikern gezielt auf den Zahn fühlen, indem er über Suchbegriffe die Rede eingrenzt. Die gewünschten Teilbereiche werden gelb markiert, vorspulen wird somit kinderleicht. Parallel zum gesprochenen Wort werden zudem die Texte eingeblendet.

 

Möglich wird diese Suchfunktion durch die so genannte Speech-to-Text-Technologie. Dafür wandelt ein Algorithmus jedes gesprochene Wort in Text um. Eine bislang nicht fehlerfreie Anwendung, wie die Google-Produktmanager Arnaud Sahuguet und Ari Bezman im Unternehmensblog http://googleblog.blogspot.com/2008/07/in-their-own-words-political-videos.html bestätigen: „Spracherkennung ist ein schwieriges Problem, das noch nicht vollständig gelöst ist. Wir arbeiten jedoch ständig daran, die Genauigkeit der Algorithmen und die Transkriptionsresultate zu verbessern“, führen die beiden Manager aus.

 

Bis dahin könne es vorkommen, dass einzelne Wörter oder Phrasen nicht richtig erkannt werden und Kauderwelsch auf dem Monitor erscheint. „Die menschliche Sprache ist einfach ein unglaublich komplexes System. Sobald man sie analysiert und nachzubilden versucht, offenbart sich eine Unzahl von Tücken. Allein die Koartikulation bringt Algorithmen leicht ins Schleudern. Darunter versteht man das Phänomen, dass Laute und Worte immer etwas anders ausgesprochen werden, je nachdem in welcher lautlichen Nachbarschaft sie vorkommen. Der gleiche Laut und das gleiche Wort existieren also in zahlreichen Aussprachevarianten“, erklärt Bernhard Steimel, Sprecher der Voice Days http://www.voicedays.de.

 

Bei einem geschätzten englischen Wortschatz von 600.000 bis 800.000 Wörtern, so der Duden http://www.duden.de, muss der Computer demnach mit einer fast unüberschaubar großen Menge an sprachlichem Input umgehen können. „Noch komplizierter wird es bei verschiedenen Rednern, wenn sich der Algorithmus den Eigenheiten des Sprachapparates des jeweiligen Sprechers anpassen muss“, so Steimel weiter. „Die Tage der ersten Generation der so genannten ‚Sprachcomputer’ sind glücklicherweise gezählt. Die Technologie ist inzwischen reif für Sprachdialoge, die die Erwartungen des Menschen besser verstehen. Gestützt auf eine neue Technologie-Generation entwickeln wir modulare, natürlich-sprachliche Dialogsysteme, die den Nutzer als Dialogpartner betrachten und natürlich-sprachliche Dialoge in höchster Qualität ermöglichen“, sagt Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

 

Die Produktmanager von Google wollen mit Google Elections Video Search nicht nur die Transparenz des US-Wahlkampfes erhöhen, sie erhoffen sich auch mehr Informationen darüber, wie Anwender mit Videos und eingebundenen Sprachapplikationen umgehen. „Auch wenn die transkribierten Texte noch nicht zu 100 Prozent genau sind, hoffen wir, dass die Suchfunktion für die Anwender nützlich ist“, so Sahuguet und Bezman.

Spracherkennung/Sprachcomputer: Google Maps hört aufs Wort – Automatischer Sprachdialog im Auto am attraktivsten

Besitzer eines Smartphones können den Kartendienst Google Maps ab sofort auch per Spracheingabe bedienen. In einer Testphase können zwar nur Nutzer eines Blackberry Pearl (8110, 8120 und die US-Version 8130) den neuen Service in Anspruch nehmen, Experten rechnen aber damit, dass auch andere Geräte diesen mobilen Dienst bald unterstützen. Der Anwender muss Adressen oder andere Zielorte wie Restaurants nun nicht mehr eintippen, was beispielsweise beim Autofahren die Suche erheblich vereinfacht.

Die neue Google Maps Funktion scheint konsequent, hatte der Suchmaschinengigant doch schon seit Längerem einen experimentellen Sprachservice unter dem Namen Google Voice Local Search angeboten. Unter der Nummer 1-800-GOOG-411 fragt man hierbei den Namen eines Unternehmens oder einer Unternehmensbranche in allen Teilen der USA an. Und die Möglichkeiten der Spracherkennung werden immer öfter genutzt.

Manfred Pinkal, Professor am Institut für Computerlinguistik und Phonetik an der Universität des Saarlandes, sieht vielfältige Einsatzmöglichkeiten „in allen Anwendungsfällen, in denen die Benutzung anderer Ein-Ausgabe-Wege unmöglich oder lästig ist. Dazu gehört natürlich das Feld der Telefonie-Anwendungen. Da ist die kommerzielle Umsetzung am weitesten fortgeschritten.“

Großes Potenzial macht er außerdem in allen Fällen aus, in denen Hände und Augen für eine andere Aufgabe gebraucht werden, beispielsweise bei operierenden Chirurgen, die Spiegel und Beleuchtung nachsteuern möchten. Der wirtschaftlich derzeit mit Abstand attraktivste Anwendungsfall sei der Sprachdialog im Auto: „Navigation, Telefon und Radio, mitgebrachte Elektronikgeräte – wie iPod oder Organizer – und Zugriffsmöglichkeiten auf externe Informationsdienste und Internet erlauben dem Fahrer, seine Zeit im Auto für immer reichhaltigere Infotainment-Angebote zu nutzen. Er braucht aber die Hände am Steuer und die Augen auf der Straße.“

Deshalb habe Sprache hier eine echte Chance und durchschlagende Funktion, prognostiziert der Wissenschaftler. Für den Berliner Sprachdialogexperten Lupo Pape, Geschäftsführer von Semanticedge, wird sich die Intelligenz der Sprachcomputer weiter verbessern:

„Die Sprachtechnologie ist einer der wichtigsten Technologien des 21. Jahrhunderts. In einigen Jahren werden wir unsere Bedürfnisse zu jeder Zeit einem sprachgesteuerten persönlichen Assistenten mitteilen können“, sagt Pape im Gespräch mit der Zeitschrift Direktmarketing.

Sein Unternehmen arbeitet an entsprechenden Software-Lösungen. Die virtuellen persönlichen Assistenten sollen dabei nicht nur per Spracherkennung Telefonverbindungen herstellen oder das SMS-Diktat auf dem Handy ermöglichen, sondern in Verbindung mit einem Service wie Wikipedia oder Google anspruchsvolle Fragen beantworten. Für die Spracherkennung im Auto spreche auch der Sicherheitsaspekt der „hands-free-Bedienung“, ebenso die Limitation des Armaturenbretts, deren Funktionalitäten und Anzeigen immer umfangreicher werden.

Spracherkennung ist nach einem Bericht der Süddeutschen Zeitung „in den vergangenen Jahren deshalb immer besser geworden, weil die Computer leistungsfähiger wurden. Sie können in erheblich kürzerer Zeit als früher erheblich mehr Varianten vergleichen und so die Wahrscheinlichkeit berechnen, welches Wort gemeint ist.“ Die Technik habe sich bereits „überall dort mit Erfolg ausgebreitet, wo es möglich ist, die zu erwartenden Muster einzuschränken, beispielsweise beim Auskunftssystem der Bahn – oder in Krankenhäusern. Radiologen hatten dort das Problem, dass sie gleichzeitig Texte eingeben und auf Röntgenbildern herumdeuten sollten.“

Kunden wollen keinen Service, sondern selbsterklärende und zuverlässige Produkte

Der beste Service ist kein Service. Bill Price, der frühere Kundenservice-Manager des Online-Buchhändlers Amazon, hat diese provokante These formuliert:

„Der durchschnittliche Kunde hat einfach keine Lust, seine Bank anzurufen oder seinem Online-Händler eine E-Mail zu schicken, wenn eine von ihm in Anspruch genommene Sachleistung weiterer Erklärungen bedarf oder Defizite aufweist. Stattdessen sollte alles von Anfang an klar strukturiert und problemlos verlaufen“, so seine Analyse der Servicewünsche auf Kundenseite.

Mit dem Kauf eines Produktes soll der Kunde zufrieden sein und gar keinen Anlass finden, wieder mit dem Unternehmen in Kontakt zu treten, bestenfalls für weitere Käufe. Bei Amazon ist daher die Zahl der Kontakte pro Kundenauftrag längst eine wichtige Steuerungsgröße.

Hat der Kunde dennoch einen Grund, sich beim Unternehmen zu melden, sei es wichtig, intelligente Selbstbedienungs-Konzepte zu entwickeln, so Price in seinem gemeinsam mit David Jaffe verfassten Buch „The best service is no service“.

„Die These von Bill Price ist verlockend und einleuchtend zugleich: Kunden wollen keinen Service, sondern selbsterklärende und zuverlässige Produkte, die möglichst den Servicefall ausschließen bzw. mit schnell und einfach zu bedienenden Self Service- Angeboten kombiniert sind“, bewertet Bernhard Steimel, Sprecher der Initiative Voice Business (IVB), die Empfehlungen des ehemaligen McKinsey-Beraters Price gegenüber dem Onlinemagazin NeueNachricht.

Die Praxis zeigt, dass es vielen Unternehmen nicht gelingt, diesen Maßstäben gerecht zu werden.

„Sie schlagen sich anscheinend lieber in ihre Kundendienst-Abteilungen mit den Auswirkungen und Symptomen schlecht konzipierter Produkte und Services herum und betätigen sich in der Brandbekämpfung, ohne die Ursachen wirklich zu beheben“, weiß Steimel, der vor allem die Servicekultur im hart umkämpften Telefonmarkt kritisch unter die Lupe nimmt. „Insbesondere bei den Festnetzanbietern bekommt man zuweilen den Eindruck, dass sie alles tun, um möglichst viele Servicevorfälle zu generieren.“

Schlechte Erreichbarkeit, unzureichend geschultes Hotline-Personal, Tarifdschungel und abmahnfähige Geschäftsbedingungen führt er als Beispiele für schlechte Serviceerlebnisse an.

„All das führt schnell zu Kundenfrust. Mitarbeiter sind oftmals nicht in der Lage ein Problem am Telefon zu lösen, da sie lediglich für einfache Auskünfte, die so genannten FAQs, geschult sind, und über keine oder geringe Vollmachten verfügen, um ein Kundenanliegen schnell und unbürokratisch zu lösen,“ berichtet Steimel.

Kann einem Kunden nicht geholfen werden, werde dieser versuchen, über andere Kanäle das Unternehmen zu erreichen.

„Diese Mehrfach-Kontakte, der von Price zitierte ‚Schneeballeffekt’, werden dann zum echten Problem, wenn Anfragen über unterschiedliche Eingangskanäle nicht einem Vorgang zugeordnet werden können. Diese Fähigkeit besitzen leider die wenigsten Unternehmen. Zudem gibt es oftmals keine adäquate Möglichkeit einfache Vorgänge schnell selbst zu erledigen. Wer es gewohnt ist, seine Flüge online zubuchen, den telefonischen Quick Check-In bevorzugt und Sitzplatzreservieren per SMS liebt, der hat wenig Spaß bei den meisten Angeboten der Telefonfirmen zur Selbstadministration per Telefon oder im Internet“, so Steimel.

Telekommunikationsunternehmen müssten sich Gedanken machen, wie sie ihre Service-Intelligenz verbessern. Dazu zähle auch die Entkomplizierung von Produkten. Zudem müssten die Telefonfirmen ihre Service-Units als Profit- und nicht als Costcenter betrachten. Seine Prognose:

„Es spricht einiges dafür, dass ähnlich wie bei den Fluggesellschaften gut gemachte Self-Service Angebote auch angenommen werden, die Anzahl der Kundenanfragen sinkt und damit die Kunden-Zufriedenheit steigt.“

Positive Beispiele sind für ihn automatisierte Erinnerungsanrufe und aktive Informationen bei Serviceausfällen wie bei der Telekom Austria oder Sprachportallösungen wie sie T-Mobile nutzt, bei denen einfache Transaktion am Telefon schnell und ohne Warteschleife erledigt werden können.

„Die Exzellenz im klassischen Kundenservice und beim Servicedesign muss in den nächsten Jahren deutlich verbessert werden, sonst werden viele Jobs über die Klinge springen“, prognostiziert Steimel.

Der Fachmann für automatische Spracherkennung hält Unternehmen für zukunftsfähig, die komplexe Technik möglichst simpel nutzbar machen, das Plug-and-Play-Prinzip beherrschen, auf Produktästhetik achten und im Kundenservice auf persönliche und individuelle Wünsche eingehen.

„Alles andere läuft über Maschinen besser. Es dauert nicht mehr lange, dann können Automaten auf die Stimmungslage des Benutzers reagieren, einen Griesgram mit Humor freundlich stimmen, den Gestressten zügig bedienen und den Ratsuchenden mit ausführlichen und genauen Informationen versorgen – muffelnde Call Center-Agenten, dümmliche Beratung von der Stange, bürokratische Organisationen, überflutete Wartezimmer beim Onkel Doktor, Terminschlampereien von Kfz-Betrieben, Warteschleifen am Telefon oder genervtes Verkaufspersonal kann sich niemand mehr leisten“, warnt Steimel.

„Wir müssen die Self Service-Intelligenz viel stärker im Kundenservice verankern – vor allen Dingen im Call Center“, bestätigt Lupo Pape, Geschäftsführer von SemanticEdge in Berlin. Ein Automatisiertes System müsse fähig sein, eine Kommunikation einfach und über viele Kanäle führen zu können. Es sollte Vorschläge unterbreiten, die auf dem Verständnis und Kontext der Situation beruhen. „Die Absichten, Hintergründe und der ‚Leidensdruck’ des Kunden müssen antizipiert werden“, resümiert der Sprachdialogexperte Pape.

Das Thema Servicekultur in Deutschland beleuchtet bei den diesjährigen Voice Days am 15. Oktober in Wiesbaden auch eine Fachdiskussion, unter anderem mit Elke Wieczorek (Vizepräsidentin des Deutschen Hausfrauenbundes), Dr. Andreas Albath (Vorstandschef der telegate AG), Gülabatin Sun (Managing Direktor HVB Direkt GmbH), Gerald Schreiber (Geschäftsführender Gesellschafter der defacto.gruppe) und Renatus Zilles (Vorsitzender der Geschäftsführung des Mehrwertdienste-Anbieters Next ID).