Sprachcomputer brauchen mehr Dialogintelligenz – Warum Tonwahlsysteme nerven

Kundenfrust bei klassischen Sprachcomputern
Kundenfrust bei klassischen Sprachcomputern
Klassische Sprachautomaten sind für viele Verbraucher ein Ärgernis. Wenn Firmen schlechte Systeme anbieten, würde das einen schlechten Eindruck beim Kunden hinterlassen, so Professor Elmar Nöth, Experte für Sprachverarbeitung an der Friedrich-Alexander-Universität Erlangen-Nürnberg, gegenüber dem Fachmagazin „Direktmarketing“: „Der Mensch soll sich aber nicht auf die Maschine einstellen, sondern die Maschine auf den Menschen. Billige Systeme führen zu genervten Leuten, und das ist schlecht für Kunden und Unternehmen.“

Sprachautomaten brauchen daher eine sehr ausgefeilte Dialogintelligenz. Davon ist Lupo Pape, Geschäftsführer von SemanticEdge in Berlin, überzeugt. Sprachsysteme sollten nicht nur die Fähigkeit besitzen zu sprechen, sondern müssten sich auch auf das Gesagte einstellen können. Der Anrufer gibt Anweisungen oder stellt Fragen, die vom Computer befolgt oder beantwortet werden. Noch weiter gehen Entwicklungen, die den Anrufer erkennen, seine Emotionen heraushören und sich entsprechend anpassen können. „Die Personalisierung der Dialogsysteme ist ein wichtiger Schritt, um Kundenwünsche vorausahnen zu können auf Basis der Kundendaten. Dann sind differenzierte Services und Auskünfte möglich, je nachdem wer, wann und wo anruft“, erläutert Pape. Der Dialog laufe dann wie folgt: Hallo Herr Herrmann! Oh! Ich sehe, dass Sie in letzter Zeit mehrfach versucht haben sich einzuwählen. Möglicherweise haben Sie Probleme mit…

Von der Sprachsteuerung zum persönlichen Assistenten
Von der Sprachsteuerung zum persönlichen Assistenten
Die alten Tonwahl-Systeme, drücken Sie die 1, wenn Sie ein Problem mit Ihrem Drucker haben, drücken Sie die 2, wenn Sie eine Frage zu neuen Produkten haben, seien nicht mehr zukunftsfähig. „Diktiererkenner werden immer besser und auch die Dialogtechnologie macht enorme Fortschritte. Die Systeme können viel mehr verstehen und die Dialoge werden immer natürlicher“, so Pape zur Weiterentwicklung der Sprachsteuerung. Interessante Dinge könnten in der mobilen Welt passieren. Der Dienst „Google Voice Search“ habe das Potential, sich zu einem persönlichen Assistenten zu mausern.

Semantisches Web verspricht bessere Werkzeuge gegen die Informationsüberflutung

Sprachdialogexperte Lupo Pape
Sprachdialogexperte Lupo Pape

Mitarbeiter verschwenden oft wertvolle Arbeitszeit mit dem Durchforsten von Suchergebnissen, Projekte geraten ins Stocken, weil wichtige Ansprechpartner nicht aus den Dokumenten hervorgehen, und Expertenwissen verstaubt ungenutzt in Dateien, die schlicht und einfach nicht gefunden wurden. Die unstrukturierte Suche nach Informationen kostet nicht nur Zeit, sie verursacht für jedes Unternehmen auch unnötige Kosten.

„Das Fraunhofer IGD hat eine Suchmaschine entwickelt, die übergreifend auf unterschiedliche Datenquellen zugreifen und selbsttätig Stichworte um Synonyme, Übersetzungen oder thematisch ähnliche Sachverhalte ergänzen kann“, berichtet das Fraunhofer-Kundenmagazin Innovisions.

Eine einzige Eingabe genügt und die Software ConWeaver durchsucht alle verschiedenen Datenquellen eines Unternehmens. Dabei bezieht ConWeaver nicht nur den vom Nutzer eingegebenen Begriff in die Suche ein, sondern auch dessen Übersetzung in andere Sprachen sowie thematische Zusammenhänge. Zudem erzeugt die Software aus den Unternehmensdaten automatisch ein semantisches Wissensnetz. Die darin enthaltenen Datenverknüpfungen ermöglichen es, nach der Bedeutung eines Wortes zu suchen.

So erkennt ConWeaver beispielsweise selbstständig, dass das Wort „Kunde“ in der Vertriebsdatenbank gleichbedeutend ist mit dem Wort „customer“ im E-Mail-Archiv und „Auftraggeber“ in der Projektdokumentation.

„Im Gegensatz zu herkömmlichen Suchmaschinen erzeugt ConWeaver einen Zusammenhang zwischen den unterschiedlichsten Datenformaten. Dadurch kann die Software sowohl unstrukturierte als auch strukturierte Informationsquellen effizient absuchen“, erläutert Dr. Thomas Kamps, Leiter des ConWeaver-Teams am Fraunhofer-Institut für Graphische Datenverarbeitung IGD in Darmstadt.

Durch die Kombination verschiedener Module, so genannter Workflows, können die Fraunhofer-Forscher ConWeaver gezielt an die Bedürfnisse des Unternehmens anpassen. Ähnliches hat auch Radar Networks aus San Francisco im Angebot. Die Firma stellt gratis ein Onlinewerkzeug mit dem Namen Twine bereit, um die tägliche Informationsflut besser zu bewältigen. Das Programm analysiert Daten und sortiert sie in Kategorien, um E-Mails, Web-Suche, Kalender, Notizen, Tabellen, Texte oder Präsentationen leichter zu nutzen.

„Derzeit dominieren Konzerne wie Google, Microsoft oder Yahoo mit eigenen oder zugekauften Diensten und Techniken die Angebote und Geschäftsmodelle im Internet. Hinzu kommt ein Schar von Angeboten, die vor allem durch die Aktivität ihrer Nutzer leben wie der Internettreffpunkt Facebook oder das Onlinelexikon Wikipedia – so genannte Web 2.0-Portale“, berichtet die Financial Times Deutschland.

Im künftigen Internet, dem Web 3.0 sollen so genannte semantische Techniken das weltweite Datennetz revolutionieren. Diese neuen digitalen Werkzeuge sollen nicht wie bislang nur einzelne Wörter in Texten erkennen, sondern vielmehr ganze Inhalte verstehen, interpretieren, mit standardisierten Schlagworten versehen und mit weiteren Informationen verknüpfen. Gleiches soll für digitale Fotos, Videos oder Musikdateien möglich werden. Die neue Wunderwelt soll auch über mobile Geräte wie Handys nutzbar sein. Gerade erst hat die Bundesregierung auf dem IT-Gipfel auf die Chancen einer Vorreiterrolle der Bundesrepublik bei der Schaffung wissensbasierter Dienstleistungen, Produkte und Geschäftsmodelle hingewiesen. Es geht bei alledem „um die Semantik, also den Sinn und die Bedeutung von Inhalten, die über das World Wide Web transportiert werden. Im Web 2.0 gebe es eine Informations- beziehungsweise Linküberflutung, da beispielsweise Textdokumente letztlich auf eine sinnfreie Kombination aus Buchstaben reduziert werden. Fotos und Videos sind nur Ansammlungen von verschiedenfarbigen Pixeln. Die semantische Wende aber führe zu einem hochpräzisen Antwortverhalten in einem Web, das Sinnzusammenhänge in den Mittelpunkt stellt“, schreibt Focus-Online.

„Wenn es also gelingt, die Semantik von Texten, Bildern, Gesten und künstlerischen Darbietungen durch standardisierte Begriffe zu formalisieren, sodass die gewonnenen Daten maschinenlesbar sind, dann könnte die Vision der Antwortmaschine Realität werden. Eine Suchmaschine wie Google wäre dann überflüssig. Der Nutzer stellt stattdessen einfach seinem Handy eine Frage und es antwortet, anstatt eine Liste von unzähligen Suchergebnissen anzubieten“, so das Magazin.

Viele Informationen würden bereits strukturiert vorliegen, wie Fahrplaninformationen, Telefonnummern, Sportergebnisse, bewertete Restaurants und sonstige Adressen.

„Was fehlt, ist eine Art Yahoo des ‚Voicewebs’, über das sich jeder personalisiert seine gewünschten Angebote zusammenstellen und über Sprache oder Multimodale Interfaces abfragen kann“, resümiert Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Update 2014:

Passiert ist auf diesem Feld wenig. Leere Versprechen.

Dialogsysteme, semantisches Web und das Ende der Google-Ära – Antwortmaschinen statt Linküberflutung

Der von Tim O’Reilly geprägte Begriff Web 2.0 hat sich zum Inbegriff des neuen Internet-Booms entwickelt. Nun arbeitet man an Konzepten für eine Weiterentwicklung. „Wenn wir über unseren Umgang mit Computern reden, verbinden wir das immer noch damit, vor einem Bildschirm zu sitzen und auf einer Tastatur zu tippen. Aber Computer werden immer mehr in den Hintergrund gedrängt. Die offensichtliche Veränderung ist zunächst, dass auch mobile Endgeräte oder Mobiltelefone als Plattform dienen. Damit ist auch verbunden, dass Spracherkennung immer besser wird. Oder dass Fotoapparate mittlerweile mit GPS ausgestattet sind“, erklärt Tim O-Reilly. Wenn das Handy mit intelligenter Sprachtechnik ausgerüstet wird, könnte es sich nach Expertenmeinung zu einem sehr nützlichen persönlichen Assistenten entwickeln.

„Solche Visionen einer Antwortmaschine geistern seit einiger Zeit unter dem Schlagwort Web 3.0 beziehungsweise Semantic Web durch das Internet“, schreibt die Nachrichtenagentur ddp.

Dialogsysteme seien nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge, geeignet, den Zugriff auf das vernetzte Weltwissen zu verbessern:

„Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären sofort ‚er-googlen’ würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und der Maus tun und das ganze jederzeit und von jedem Ort aus”, so Pape.

Die fehlenden Bausteine dafür seien jetzt schon verfügbar, so dass es nur eine Frage der Zeit seit, bis sich die Menschen weltweit an dieses neue Interface gewöhnt haben.

„Die Spracherkennung im personalisierten Diktiermodus ist schon sehr ausgereift, die mobilen Datenzugriffe werden immer schneller und auch Flatrates im Mobilfunk werden vermutlich bald genauso verbreitet sein wie im DSL-Geschäft”, prognostiziert Pape.

Viele Informationen würden bereits strukturiert vorliegen, wie Fahrplaninformationen, Telefonnummern, Sportergebnisse, bewertete Restaurants und sonstige Adressen. „

Was fehlt, ist eine Art Yahoo des ‚Voicewebs’, über das sich jeder personalisiert seine gewünschten Angebote zusammenstellen und über Sprache oder Multimodale Interfaces abfragen kann“, so Pape.

Zu einer ähnlichen Einschätzung gelangt Professor Wolfgang Wahlster, Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI):

„Das Web 2.0 ist ein primär syntaktisches Web mit Layout-, aber ohne Bedeutungsannotationen“, so Wahlster gegenüber ddp.

Das führe zu einer Informations- beziehungsweise Linküberflutung, da beispielsweise Textdokumente letztlich auf eine sinnfreie Kombination aus Buchstaben reduziert werden, Fotos und Videos sind nur Ansammlungen von verschiedenfarbigen Pixeln. Die semantische Wende aber führe zu einem hochpräzisen Antwortverhalten in einem Web, das Sinnzusammenhänge in den Mittelpunkt stellt.

„Wenn es also gelingt, die Semantik von Texten, Bildern, Gesten und künstlerischen Darbietungen durch standardisierte Begriffe so zu formalisieren, dass die so gewonnenen Daten maschinenlesbar sind, dann könnte die Vision der Antwortmaschine Realität werden. Eine Suchmaschine wie Google wäre dann überflüssig“, spekuliert ddp.

Das Web 3.0 eröffne nach Ansicht von Bernhard Steimel, Sprecher der Bonner Voice Days, eine Vielzahl neuer Anwendungen: „Für Call Center, für die Gemeinde der „Wissensarbeiter“ und natürlich für Endverbraucher, die sich auch ohne Computer ungehinderten Zugang zu den Informationen des Internets wünschen“, resümiert Steimel.