Semantisches Web und das Ende der Google-Erfolgsstory – Suchmaschinen sollen mit Alltagswissen ausgestattet werden

Vision und Praxis von so genannter Semantik- und Web-2.0-Technologie thematisierte die Konferenz Triple-I in Graz: Mit der Einbindung von Alltagswissen will Henry Lieberman vom MIT dafür sorgen, dass Computer Menschen tatsächlich verstehen.

„Wenn wir wollen, dass Computer Menschen wirklich helfen, dann brauchen die Rechner Zugriff zu Alltagswissen“, so Henry Lieberman, Leiter der Software Agent Gruppe am Massachusetts Institute of Technology MIT, auf der Wissensmanagement-Konferenz Triple-I.

Dazu sammelt sein Team grundlegende triviale Informationen und entwickelt daraus Ontologien, um beispielsweise die den Satz „Ich bin gefeuert worden“ richtig zu deuten. Mit deren Hilfe wird das Wissen in maschinenlesbare Informationen übersetzt.

Entsprechende Systeme könnten Anwender nach einem Bericht der Computer Zeitung (die es ja schon seit einiger Zeit nicht mehr gibt, gs) zum Beispiel bei der Terminplanung unterstützen. Die Software erkennt etwa, dass der Nutzer für eine bestimmte Verabredung einen Routenplaner oder eine Hotelreservierung benötigt. Dies kann das System verstehen, da es die grundlegende Information hat, dass ein Termin den Aufenthalt an einem anderen Ort erfordert.

„Solche Technologien können laut Lieberman auch in anderen Szenarien zum Einsatz kommen wie etwa bei der Kundenbetreuung oder beim Helpdesk. Ebenso gibt es Versuche, Suchmaschinen mit Alltagswissen auszustatten. Anwender könnten dann Anfragen in natürlicher Sprache eingeben. Damit verheißt der Wissenschaftler das Einlösen des Versprechens, das die semantischen Technologien von Beginn an begleitet: Die Möglichkeit, dass Computer ihre menschlichen Nutzer tatsächlich verstehen“, so die Computer Zeitung.

„Mit der semantischen Suche versucht man die Ergebnisse der Sprachforschung zu nutzen, um Suchbegriffe oder natürlich-sprachliche Suchanfragen tiefer zu analysieren und semantisch anzureichern. Suchergebnisse sollen am Ende präziser und besser strukturiert herausgegeben sowie um viele andere, nahe liegende Themengebiete angereichert werden. Idealerweise kann eine gestellte Frage dann auch in einem Satz beantwortet werden“, erklärt Sprachdialogexperte Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Diesem Trend entgegen komme die immer stärkere semantische Aufbereitung der Webinhalte in vielen Suchbereichen durch Internetnutzer, die weltweit in Netzwerken aktiv seien. Das beste Beispiel hierfür sei Wikipedia. Und genau da setzt die von Microsoft übernommene Firma Powerset an.

„Sie versucht, diese schon strukturiert eingegebenen Inhalte noch besser ‚suchbar’ zu machen und dabei auch natürlich-sprachliche Eingaben zu interpretieren. Das Ergebnis ist sehr viel spannender als die Google-Suche mit den endlosen Trefferlisten“, meint Pape gegenüber NeueNachricht. Das sei genau der richtige Weg und könnte der Anfang vom Ende der Google-Erfolgsstory werden.

Gekoppelt mit Spracherkennung und Sprachsynthese komme man zu ganz neuen Sucherfahrungen.

„Eine gesprochene Frage zu einem beliebigen Thema wird auch durch einen gesprochenen Satz beantwortet. Dieses Szenario ist keinesfalls Science-Fiction, denn parallel zu den Fortschritten in der Suchtechnologie macht auch die Spracherkennung Entwicklungssprünge. Auch die Dialogtechnologie spielt hier ein bedeutende Rolle, da bei vielen Anfragen weiterführende Fragen und Präzisierungen erforderlich sind, die einen intelligenten Dialog erforderlich machen“, sagt Pape.

Die Frage „Wie komme ich jetzt am schnellsten nach Berlin?” mache die Klärung erforderlich, ob man mit dem Zug, dem Auto oder dem Flugzeug reisen möchte.

„Es wird noch lange dauern, bis die vielen Fragen, die irgendjemand zu irgendeinem Zeitpunkt hat. beantwortet werden können. Aber in vielen Domänen, in denen die Informationen semantisch schon sehr gut erschlossen und die wichtigsten Nutzungsszenarien klar sind, ist jetzt schon vieles möglich. Beispielsweise Fahrplaninformationen und Navigationssysteme, um von A nach B zu kommen. Oder Wissensfragen, die über Dienste wie Wikipedia beantwortet werden“, resümiert Pape.

Update vom 26. August 2013: Die Prognose über das Ende der Google-Erfolgsstory lag wohl etwas daneben. Auch beim semantischen Web wartet man ja noch auf dem Durchbruch im Massenmarkt…..

Schulklassen können Mensch-Maschine-Kommunikation testen

Der beliebte Spielzeugroboter Mindstorms von Lego bewegt sich und kann über Sensoren seine Umgebung wahrnehmen. Wissenschaftler der Universität des Saarlandes haben ihm auch das Sprechen beigebracht und dafür ein einfach zu bedienendes Sprachdialogsystem entwickelt, das sich besonders für den Schulunterricht eignet. Für die Verständigung mit dem Roboter sorgt das System DialogOS von der Firma CLT Sprachtechnologie, einer Ausgründung des Computerlinguisten Professor Manfred Pinkal von der Universität des Saarlandes. Die Software mit grafischer Benutzeroberfläche ist für den Unterricht auch an Unis konzipiert und unterstützt Lego Mindstorms sowie andere vergleichbare Bausätze – Programmierkenntnisse werden nicht vorausgesetzt. In kurzer Zeit können kleine Dialoge gestaltet werden, um dem Roboter Anweisungen zu geben oder mit ihm die nächste Aktion auszuhandeln. Die Schnittstelle zum NXT-Stein, dem „Gehirn“ des Roboters, macht es möglich, dass Sprachkommandos direkt in Bewegungsprogramme umgesetzt werden.

So berichtet der Roboter, was er über seine Sensoren sieht oder fühlt. Er fragt dann nach Informationen, die er für seine nächsten Aktionen braucht. Die integrierte Spracherkennung und Sprachausgabe machen es möglich, den Dialog in einer natürlichen Gesprächssituation direkt auszuprobieren: „Das ist ein wichtiges Kriterium für die Akzeptanz von automatischen Sprachsystemen. Der Mensch sollte mit seiner Alltagssprache komplexe Geräte steuern können. Häufig ist das aber nicht der Fall. Da muss man sich den Restriktionen der Maschine anpassen und das führt schnell zu Frustrationen“, weiß Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Mit dem Lego-Roboter bestehe die Möglichkeit, spielerisch die Anwendungsmöglichkeiten von Sprachdialogsystemen zu testen. „Nur so kann man Ängste und Hemmungen bei der Mensch-Maschine-Interaktion abbauen. Das Projekt sollte bundesweit in allen Schulen zum Einsatz kommen“, fordert Sprachdialogexperte Pape. Der Einsatz von Lego-Baukästen im Informatikstudium und im Schulunterricht ist auch nach Ansicht von Bernhard Steimel, Sprecher der Voice Days, eine phantastische Möglichkeit, um Sprachtechnik in Produkten des Alltags verstärkt einzusetzen.

„Wer heute ein Videogerät, Handy oder einen Fotoapparat kauft, muss sich erst umständlich durch Menüs und Bedienungsanleitungen kämpfen. Besser wäre es, wenn man dem neuen Gerät einfach sagen könnte, was man von ihm will und zwar so, wie man mit einem anderen Menschen reden würde“, so Steimel.

Den Stand der Technik und die Zukunft der automatischen Sprachdialogsysteme dokumentiert der Fachkongress „Voice Days“, der in diesem Jahr in Wiesbaden stattfindet.

Alle Schulklassen, die sich für das Thema „Mensch-Maschine-Kommunikation“ interessieren, können kostenlos die Fachausstellung der „Voice Days“ vom 15. bis 16. Oktober 2008 in den Rhein-Main-Hallen in Wiesbaden besuchen: „Wir bieten für Schüler und Lehrer spezielle Führungen, um zu erfahren, wie man ‚Dirigent’ der Mensch-Maschine-Kommunikation wird. So muss ein professioneller Sprachdialoggestalter Kenntnisse über Musik, Töne und Stimmen mitbringen, um sie als akustische Wegweiser einzusetzen. Wir zeigen den Nachwuchskräften, wie wichtig die Ingenieurwissenschaften und die Forschung für Künstliche Intelligenz sind, um Technik für Menschen leichter benutzbar zu machen: Behindertengerechte Fahrkartenautomaten, Navigationsgeräte ohne Tasteneingabe, Service-Roboter in der Altenpflege oder die Entwicklung von virtuellen persönlichen Assistenten. Experten des Fraunhofer-Instituts, des Deutschen Forschungszentrums für Künstliche Intelligenz und Vertreter der wichtigsten Technologiefirmen unserer Branche stehen den Schülern als Ansprechpartner zur Verfügung“, so Steimel.

Mit Spracherkennung Politikern auf den Zahn fühlen – Neue Google-Suchfunktion „Elections Video Search“ soll amerikanischen Wahlkampf transparenter machen

Wer kennt das nicht: Gerade zu Wahlkampfzeiten verlieren sich Politiker in ihren Reden oftmals in Floskeln, Endlosschleifen und rhetorischen Leerformeln – die wichtigen Informationen werden darunter verschüttet.. Um dem zu entgehen, bietet Google eine neue Suchfunktion an. Google Elections Video Search wandelt die Reden der Politiker in Texte um und synchronisiert sie mit den Videos auf YouTube. Der Zuschauer muss sich nicht mühevoll die langatmigen Reden ansehen, sondern kann den Politikern gezielt auf den Zahn fühlen, indem er über Suchbegriffe die Rede eingrenzt. Die gewünschten Teilbereiche werden gelb markiert, vorspulen wird somit kinderleicht. Parallel zum gesprochenen Wort werden zudem die Texte eingeblendet.

 

Möglich wird diese Suchfunktion durch die so genannte Speech-to-Text-Technologie. Dafür wandelt ein Algorithmus jedes gesprochene Wort in Text um. Eine bislang nicht fehlerfreie Anwendung, wie die Google-Produktmanager Arnaud Sahuguet und Ari Bezman im Unternehmensblog http://googleblog.blogspot.com/2008/07/in-their-own-words-political-videos.html bestätigen: „Spracherkennung ist ein schwieriges Problem, das noch nicht vollständig gelöst ist. Wir arbeiten jedoch ständig daran, die Genauigkeit der Algorithmen und die Transkriptionsresultate zu verbessern“, führen die beiden Manager aus.

 

Bis dahin könne es vorkommen, dass einzelne Wörter oder Phrasen nicht richtig erkannt werden und Kauderwelsch auf dem Monitor erscheint. „Die menschliche Sprache ist einfach ein unglaublich komplexes System. Sobald man sie analysiert und nachzubilden versucht, offenbart sich eine Unzahl von Tücken. Allein die Koartikulation bringt Algorithmen leicht ins Schleudern. Darunter versteht man das Phänomen, dass Laute und Worte immer etwas anders ausgesprochen werden, je nachdem in welcher lautlichen Nachbarschaft sie vorkommen. Der gleiche Laut und das gleiche Wort existieren also in zahlreichen Aussprachevarianten“, erklärt Bernhard Steimel, Sprecher der Voice Days http://www.voicedays.de, im Gespräch mit dem Onlinemagazin NeueNachricht http://www.ne-na.de.

 

Bei einem geschätzten englischen Wortschatz von 600.000 bis 800.000 Wörtern, so der Duden http://www.duden.de, muss der Computer demnach mit einer fast unüberschaubar großen Menge an sprachlichem Input umgehen können. „Noch komplizierter wird es bei verschiedenen Rednern, wenn sich der Algorithmus den Eigenheiten des Sprachapparates des jeweiligen Sprechers anpassen muss“, so Steimel weiter. „Die Tage der ersten Generation der so genannten ‚Sprachcomputer’ sind glücklicherweise gezählt. Die Technologie ist inzwischen reif für Sprachdialoge, die die Erwartungen des Menschen besser verstehen. Gestützt auf eine neue Technologie-Generation entwickeln wir modulare, natürlich-sprachliche Dialogsysteme, die den Nutzer als Dialogpartner betrachten und natürlich-sprachliche Dialoge in höchster Qualität ermöglichen“, sagt Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

 

Die Produktmanager von Google wollen mit Google Elections Video Search nicht nur die Transparenz des US-Wahlkampfes erhöhen, sie erhoffen sich auch mehr Informationen darüber, wie Anwender mit Videos und eingebundenen Sprachapplikationen umgehen. „Auch wenn die transkribierten Texte noch nicht zu 100 Prozent genau sind, hoffen wir, dass die Suchfunktion für die Anwender nützlich ist“, so Sahuguet und Bezman.

Spracherkennung/Sprachcomputer: Google Maps hört aufs Wort – Automatischer Sprachdialog im Auto am attraktivsten

Besitzer eines Smartphones können den Kartendienst Google Maps ab sofort auch per Spracheingabe bedienen. In einer Testphase können zwar nur Nutzer eines Blackberry Pearl (8110, 8120 und die US-Version 8130) den neuen Service in Anspruch nehmen, Experten rechnen aber damit, dass auch andere Geräte diesen mobilen Dienst bald unterstützen. Der Anwender muss Adressen oder andere Zielorte wie Restaurants nun nicht mehr eintippen, was beispielsweise beim Autofahren die Suche erheblich vereinfacht.

Die neue Google Maps Funktion scheint konsequent, hatte der Suchmaschinengigant doch schon seit Längerem einen experimentellen Sprachservice unter dem Namen Google Voice Local Search angeboten. Unter der Nummer 1-800-GOOG-411 fragt man hierbei den Namen eines Unternehmens oder einer Unternehmensbranche in allen Teilen der USA an. Und die Möglichkeiten der Spracherkennung werden immer öfter genutzt.

Manfred Pinkal, Professor am Institut für Computerlinguistik und Phonetik an der Universität des Saarlandes, sieht vielfältige Einsatzmöglichkeiten „in allen Anwendungsfällen, in denen die Benutzung anderer Ein-Ausgabe-Wege unmöglich oder lästig ist. Dazu gehört natürlich das Feld der Telefonie-Anwendungen. Da ist die kommerzielle Umsetzung am weitesten fortgeschritten.“

Großes Potenzial macht er außerdem in allen Fällen aus, in denen Hände und Augen für eine andere Aufgabe gebraucht werden, beispielsweise bei operierenden Chirurgen, die Spiegel und Beleuchtung nachsteuern möchten. Der wirtschaftlich derzeit mit Abstand attraktivste Anwendungsfall sei der Sprachdialog im Auto: „Navigation, Telefon und Radio, mitgebrachte Elektronikgeräte – wie iPod oder Organizer – und Zugriffsmöglichkeiten auf externe Informationsdienste und Internet erlauben dem Fahrer, seine Zeit im Auto für immer reichhaltigere Infotainment-Angebote zu nutzen. Er braucht aber die Hände am Steuer und die Augen auf der Straße.“

Deshalb habe Sprache hier eine echte Chance und durchschlagende Funktion, prognostiziert der Wissenschaftler. Für den Berliner Sprachdialogexperten Lupo Pape, Geschäftsführer von Semanticedge, wird sich die Intelligenz der Sprachcomputer weiter verbessern:

„Die Sprachtechnologie ist einer der wichtigsten Technologien des 21. Jahrhunderts. In einigen Jahren werden wir unsere Bedürfnisse zu jeder Zeit einem sprachgesteuerten persönlichen Assistenten mitteilen können“, sagt Pape im Gespräch mit der Zeitschrift Direktmarketing.

Sein Unternehmen arbeitet an entsprechenden Software-Lösungen. Die virtuellen persönlichen Assistenten sollen dabei nicht nur per Spracherkennung Telefonverbindungen herstellen oder das SMS-Diktat auf dem Handy ermöglichen, sondern in Verbindung mit einem Service wie Wikipedia oder Google anspruchsvolle Fragen beantworten. Für die Spracherkennung im Auto spreche auch der Sicherheitsaspekt der „hands-free-Bedienung“, ebenso die Limitation des Armaturenbretts, deren Funktionalitäten und Anzeigen immer umfangreicher werden.

Spracherkennung ist nach einem Bericht der Süddeutschen Zeitung „in den vergangenen Jahren deshalb immer besser geworden, weil die Computer leistungsfähiger wurden. Sie können in erheblich kürzerer Zeit als früher erheblich mehr Varianten vergleichen und so die Wahrscheinlichkeit berechnen, welches Wort gemeint ist.“ Die Technik habe sich bereits „überall dort mit Erfolg ausgebreitet, wo es möglich ist, die zu erwartenden Muster einzuschränken, beispielsweise beim Auskunftssystem der Bahn – oder in Krankenhäusern. Radiologen hatten dort das Problem, dass sie gleichzeitig Texte eingeben und auf Röntgenbildern herumdeuten sollten.“

Kunden wollen keinen Service, sondern selbsterklärende und zuverlässige Produkte

Der beste Service ist kein Service. Bill Price, der frühere Kundenservice-Manager des Online-Buchhändlers Amazon, hat diese provokante These formuliert:

„Der durchschnittliche Kunde hat einfach keine Lust, seine Bank anzurufen oder seinem Online-Händler eine E-Mail zu schicken, wenn eine von ihm in Anspruch genommene Sachleistung weiterer Erklärungen bedarf oder Defizite aufweist. Stattdessen sollte alles von Anfang an klar strukturiert und problemlos verlaufen“, so seine Analyse der Servicewünsche auf Kundenseite.

Mit dem Kauf eines Produktes soll der Kunde zufrieden sein und gar keinen Anlass finden, wieder mit dem Unternehmen in Kontakt zu treten, bestenfalls für weitere Käufe. Bei Amazon ist daher die Zahl der Kontakte pro Kundenauftrag längst eine wichtige Steuerungsgröße.

Hat der Kunde dennoch einen Grund, sich beim Unternehmen zu melden, sei es wichtig, intelligente Selbstbedienungs-Konzepte zu entwickeln, so Price in seinem gemeinsam mit David Jaffe verfassten Buch „The best service is no service“.

„Die These von Bill Price ist verlockend und einleuchtend zugleich: Kunden wollen keinen Service, sondern selbsterklärende und zuverlässige Produkte, die möglichst den Servicefall ausschließen bzw. mit schnell und einfach zu bedienenden Self Service- Angeboten kombiniert sind“, bewertet Bernhard Steimel, Sprecher der Initiative Voice Business (IVB), die Empfehlungen des ehemaligen McKinsey-Beraters Price gegenüber dem Onlinemagazin NeueNachricht.

Die Praxis zeigt, dass es vielen Unternehmen nicht gelingt, diesen Maßstäben gerecht zu werden.

„Sie schlagen sich anscheinend lieber in ihre Kundendienst-Abteilungen mit den Auswirkungen und Symptomen schlecht konzipierter Produkte und Services herum und betätigen sich in der Brandbekämpfung, ohne die Ursachen wirklich zu beheben“, weiß Steimel, der vor allem die Servicekultur im hart umkämpften Telefonmarkt kritisch unter die Lupe nimmt. „Insbesondere bei den Festnetzanbietern bekommt man zuweilen den Eindruck, dass sie alles tun, um möglichst viele Servicevorfälle zu generieren.“

Schlechte Erreichbarkeit, unzureichend geschultes Hotline-Personal, Tarifdschungel und abmahnfähige Geschäftsbedingungen führt er als Beispiele für schlechte Serviceerlebnisse an.

„All das führt schnell zu Kundenfrust. Mitarbeiter sind oftmals nicht in der Lage ein Problem am Telefon zu lösen, da sie lediglich für einfache Auskünfte, die so genannten FAQs, geschult sind, und über keine oder geringe Vollmachten verfügen, um ein Kundenanliegen schnell und unbürokratisch zu lösen,“ berichtet Steimel.

Kann einem Kunden nicht geholfen werden, werde dieser versuchen, über andere Kanäle das Unternehmen zu erreichen.

„Diese Mehrfach-Kontakte, der von Price zitierte ‚Schneeballeffekt’, werden dann zum echten Problem, wenn Anfragen über unterschiedliche Eingangskanäle nicht einem Vorgang zugeordnet werden können. Diese Fähigkeit besitzen leider die wenigsten Unternehmen. Zudem gibt es oftmals keine adäquate Möglichkeit einfache Vorgänge schnell selbst zu erledigen. Wer es gewohnt ist, seine Flüge online zubuchen, den telefonischen Quick Check-In bevorzugt und Sitzplatzreservieren per SMS liebt, der hat wenig Spaß bei den meisten Angeboten der Telefonfirmen zur Selbstadministration per Telefon oder im Internet“, so Steimel.

Telekommunikationsunternehmen müssten sich Gedanken machen, wie sie ihre Service-Intelligenz verbessern. Dazu zähle auch die Entkomplizierung von Produkten. Zudem müssten die Telefonfirmen ihre Service-Units als Profit- und nicht als Costcenter betrachten. Seine Prognose:

„Es spricht einiges dafür, dass ähnlich wie bei den Fluggesellschaften gut gemachte Self-Service Angebote auch angenommen werden, die Anzahl der Kundenanfragen sinkt und damit die Kunden-Zufriedenheit steigt.“

Positive Beispiele sind für ihn automatisierte Erinnerungsanrufe und aktive Informationen bei Serviceausfällen wie bei der Telekom Austria oder Sprachportallösungen wie sie T-Mobile nutzt, bei denen einfache Transaktion am Telefon schnell und ohne Warteschleife erledigt werden können.

„Die Exzellenz im klassischen Kundenservice und beim Servicedesign muss in den nächsten Jahren deutlich verbessert werden, sonst werden viele Jobs über die Klinge springen“, prognostiziert Steimel.

Der Fachmann für automatische Spracherkennung hält Unternehmen für zukunftsfähig, die komplexe Technik möglichst simpel nutzbar machen, das Plug-and-Play-Prinzip beherrschen, auf Produktästhetik achten und im Kundenservice auf persönliche und individuelle Wünsche eingehen.

„Alles andere läuft über Maschinen besser. Es dauert nicht mehr lange, dann können Automaten auf die Stimmungslage des Benutzers reagieren, einen Griesgram mit Humor freundlich stimmen, den Gestressten zügig bedienen und den Ratsuchenden mit ausführlichen und genauen Informationen versorgen – muffelnde Call Center-Agenten, dümmliche Beratung von der Stange, bürokratische Organisationen, überflutete Wartezimmer beim Onkel Doktor, Terminschlampereien von Kfz-Betrieben, Warteschleifen am Telefon oder genervtes Verkaufspersonal kann sich niemand mehr leisten“, warnt Steimel.

„Wir müssen die Self Service-Intelligenz viel stärker im Kundenservice verankern – vor allen Dingen im Call Center“, bestätigt Lupo Pape, Geschäftsführer von SemanticEdge in Berlin. Ein Automatisiertes System müsse fähig sein, eine Kommunikation einfach und über viele Kanäle führen zu können. Es sollte Vorschläge unterbreiten, die auf dem Verständnis und Kontext der Situation beruhen. „Die Absichten, Hintergründe und der ‚Leidensdruck’ des Kunden müssen antizipiert werden“, resümiert der Sprachdialogexperte Pape.

Das Thema Servicekultur in Deutschland beleuchtet bei den diesjährigen Voice Days am 15. Oktober in Wiesbaden auch eine Fachdiskussion, unter anderem mit Elke Wieczorek (Vizepräsidentin des Deutschen Hausfrauenbundes), Dr. Andreas Albath (Vorstandschef der telegate AG), Gülabatin Sun (Managing Direktor HVB Direkt GmbH), Gerald Schreiber (Geschäftsführender Gesellschafter der defacto.gruppe) und Renatus Zilles (Vorsitzender der Geschäftsführung des Mehrwertdienste-Anbieters Next ID).