Sprachsynthese Archive - ichsagmal.com

Wird über Sprachautomatisierung debattiert, fallen sicherlich jedem Konsumenten sofort eine Reihe nerviger Hotline-Ansagetexte ein, die den Blutdruck in Wallung bringen. Trefflich auf die Spitze getrieben im Werbefilm von Yello Strom am Obststand mit dem roboterhaften Verkäufer und seinem Ansagetext: „Interessieren Sie sich für unsere Bananen, sagen Sie ‚Bananen’……“ Dem Stand der Forschung und dem Ansinnen der Wissenschaftler werden die endlos kolportierten Negativbeispiele nicht gerecht. Schon im 18. Jahrhundert war der Hofkammerrat Wolfgang von Kempelen unter Maria Theresia und Joseph II. davon beseelt, eine Sprechmaschine zu erfinden, die dem Menschen nützt: Der aufklärerisch gesinnte Beamte konstruierte einen Apparat, der gehörlose Menschen zur Lautsprache führen konnte. Die Maschinen-Sprache sollte nicht nur hörbar, sondern vor allem für das Auge verständlich werden. Kempelen äußerte sich optimistisch, „dass die Maschine ohne sonderliche Kunst mit Tasten, wie ein Klavier oder eine Orgel einzurichten wäre, dass Spielen auf derselben, gegen die dermalige Art Jedermann viel leichter fallen würde“, berichtet 1792 das „Magazin für das Neueste aus der Physik und Naturgeschichte“ (Band 8, Seite 101).

Die Idee, dass ein lebendiger Organismus gemäß den Gesetzen von Physik funktioniert und prinzipiell mit Mitteln der Mechanik simuliert werden kann, war spätestens seit dem 17. Jahrhundert nicht länger unklar und verdächtig, sondern wissenschaftliche Hypothese. Die Pionierarbeit von Kempelen wirkte bis ins 20. Jahrhundert: auf Persönlichkeiten wie Charles Babbage, dem „Father of computing“, Homer Dudley, der den Voice Operation Demonstrator (VODER) baute oder auf Mathematiker wie John von Neumann und Norbert Wiener, die sich mit Sprache und Logik beschäftigten. Durch die Sprachsteuerung per Computer ist das Kempelen-Werk sicherlich nicht mehr relevant. „Wissenschaftsgeschichtlich jedoch ist es nach wie vor von Bedeutung, ebenso seine Ansichten und seine philosophische Betrachtungsweise“, erläutert die Kempelen-Expertin Alice Reininger von der Universität für angewandte Kunst in Wien.

Auch heute gehe es nach Ansicht von Andreas Latzel, Deutschlandchef der Aastra-Gruppe, bei der Sprachtechnologie um einen humanitären Ansatz: „Es sollen Prozesse automatisiert werden und nicht Menschen“. Als Beispiel nennt er die Altenpflege. Die von seiner Firma entwickelte Technik soll Pflegedokumentationen in der stationären Altenhilfe einfacher, schneller und besser machen: „So ist eine Nachtschwester für viele Bereiche und Bewohner zuständig und kann nicht alle Akten ständig bei sich tragen. Die Spracherfassung über das mobile Telefon vereinfacht die Dokumentation, sichert die Qualität und spart nebenbei noch Zeit“, sagt Latzel.

Wichtige Erfahrungen mit dem Aastra-Programm OPAS Sozial wurden in dem vom Bundesministerium für Familie, Senioren, Frauen und Jugend geförderten Pilotprojekt „Das intelligente Heim“ gesammelt und von Pflegewissenschaftlern ausgewertet: „Mithilfe der Spracherkennung wird deutlich mehr direkt und zeitnah im Anschluss an die Pflegeleistung dokumentiert. Der Anteil der Personen, die direkt im Anschluss an Maßnahmen dokumentieren, ist von 46 auf 70 Prozent gestiegen. Unter Berücksichtigung des deutlich gestiegenen Dokumentationsvolumens hat die eigentliche Dokumentationszeit abgenommen. So geben über 73 Prozent der Befragten an, bei der Dokumentation mit Spracherkennung deutlich Zeit zu sparen“, so der vorläufige Abschlussbericht.

Über 93 Prozent der beteiligten Mitarbeiter gaben zu Protokoll, dass die Dokumentationsanwendung mit Spracherkennung leicht bedienbar sei. 90 Prozent der Pflegekräfte wollen mit dem Prototyp oder einem ähnlichen System weiterarbeiten. 85 Prozent der Umfrageteilnehmer würden die Dokumentation mittels Spracherkennung anderen Dokumentationsmethoden vorziehen. Eine funktionierende Spracherkennung unterstütze die Dokumentation, so dass zahlreiche Einsatzgebiete der Spracherkennung – weit über die Erstellung des Verlaufsberichts hinaus – denkbar seien. „70 Prozent der Pflegekräfte geben an, dass das Dokumentationsvolumen und die Dokumentationsqualität im Rahmen der Dokumentationsarbeit mit der Spracherkennung deutlich gestiegen sind. Dies wird auch durch die entsprechenden Leiter der Heimträger bestätigt“, so das Fazit der Pflegewissenschaftler. Auf der Call Center World in Berlin wird Aastra branchenspezifische Lösungen vorstellen, unter anderem das multimediale Sprachdialogsystems Aastra Voice Portal 7.5. Nach Firmenangaben versteht es umgangssprachliche Äußerungen ebenso wie komplette Sätze und lässt sich jederzeit unterbrechen. Darüber hinaus werden die Antworten anhand des bisherigen Dialogverlaufs und der jeweiligen Aufgabenstellung generiert. Sind beispielsweise im Kino Filme noch nicht angelaufen oder keine Karten mehr verfügbar, werden Anrufer frühzeitig informiert und müssen sich nicht erst durch die gesamte Dialogstruktur quälen – wie bei menügesteuerten Systemen.

Vision und Praxis von so genannter Semantik- und Web-2.0-Technologie thematisierte die Konferenz Triple-I in Graz: Mit der Einbindung von Alltagswissen will Henry Lieberman vom MIT dafür sorgen, dass Computer Menschen tatsächlich verstehen.

„Wenn wir wollen, dass Computer Menschen wirklich helfen, dann brauchen die Rechner Zugriff zu Alltagswissen“, so Henry Lieberman, Leiter der Software Agent Gruppe am Massachusetts Institute of Technology MIT, auf der Wissensmanagement-Konferenz Triple-I.

Dazu sammelt sein Team grundlegende triviale Informationen und entwickelt daraus Ontologien, um beispielsweise die den Satz „Ich bin gefeuert worden“ richtig zu deuten. Mit deren Hilfe wird das Wissen in maschinenlesbare Informationen übersetzt.

Entsprechende Systeme könnten Anwender nach einem Bericht der Computer Zeitung (die es ja schon seit einiger Zeit nicht mehr gibt, gs) zum Beispiel bei der Terminplanung unterstützen. Die Software erkennt etwa, dass der Nutzer für eine bestimmte Verabredung einen Routenplaner oder eine Hotelreservierung benötigt. Dies kann das System verstehen, da es die grundlegende Information hat, dass ein Termin den Aufenthalt an einem anderen Ort erfordert.

„Solche Technologien können laut Lieberman auch in anderen Szenarien zum Einsatz kommen wie etwa bei der Kundenbetreuung oder beim Helpdesk. Ebenso gibt es Versuche, Suchmaschinen mit Alltagswissen auszustatten. Anwender könnten dann Anfragen in natürlicher Sprache eingeben. Damit verheißt der Wissenschaftler das Einlösen des Versprechens, das die semantischen Technologien von Beginn an begleitet: Die Möglichkeit, dass Computer ihre menschlichen Nutzer tatsächlich verstehen“, so die Computer Zeitung.

„Mit der semantischen Suche versucht man die Ergebnisse der Sprachforschung zu nutzen, um Suchbegriffe oder natürlich-sprachliche Suchanfragen tiefer zu analysieren und semantisch anzureichern. Suchergebnisse sollen am Ende präziser und besser strukturiert herausgegeben sowie um viele andere, nahe liegende Themengebiete angereichert werden. Idealerweise kann eine gestellte Frage dann auch in einem Satz beantwortet werden“, erklärt Sprachdialogexperte Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Diesem Trend entgegen komme die immer stärkere semantische Aufbereitung der Webinhalte in vielen Suchbereichen durch Internetnutzer, die weltweit in Netzwerken aktiv seien. Das beste Beispiel hierfür sei Wikipedia. Und genau da setzt die von Microsoft übernommene Firma Powerset an.

„Sie versucht, diese schon strukturiert eingegebenen Inhalte noch besser ‚suchbar’ zu machen und dabei auch natürlich-sprachliche Eingaben zu interpretieren. Das Ergebnis ist sehr viel spannender als die Google-Suche mit den endlosen Trefferlisten“, meint Pape gegenüber NeueNachricht. Das sei genau der richtige Weg und könnte der Anfang vom Ende der Google-Erfolgsstory werden.

Gekoppelt mit Spracherkennung und Sprachsynthese komme man zu ganz neuen Sucherfahrungen.

„Eine gesprochene Frage zu einem beliebigen Thema wird auch durch einen gesprochenen Satz beantwortet. Dieses Szenario ist keinesfalls Science-Fiction, denn parallel zu den Fortschritten in der Suchtechnologie macht auch die Spracherkennung Entwicklungssprünge. Auch die Dialogtechnologie spielt hier ein bedeutende Rolle, da bei vielen Anfragen weiterführende Fragen und Präzisierungen erforderlich sind, die einen intelligenten Dialog erforderlich machen“, sagt Pape.

Die Frage „Wie komme ich jetzt am schnellsten nach Berlin?” mache die Klärung erforderlich, ob man mit dem Zug, dem Auto oder dem Flugzeug reisen möchte.

„Es wird noch lange dauern, bis die vielen Fragen, die irgendjemand zu irgendeinem Zeitpunkt hat. beantwortet werden können. Aber in vielen Domänen, in denen die Informationen semantisch schon sehr gut erschlossen und die wichtigsten Nutzungsszenarien klar sind, ist jetzt schon vieles möglich. Beispielsweise Fahrplaninformationen und Navigationssysteme, um von A nach B zu kommen. Oder Wissensfragen, die über Dienste wie Wikipedia beantwortet werden“, resümiert Pape.

Update vom 26. August 2013: Die Prognose über das Ende der Google-Erfolgsstory lag wohl etwas daneben. Auch beim semantischen Web wartet man ja noch auf dem Durchbruch im Massenmarkt…..