Die Stimme als ultimatives Interface – Ist das so?

2007 schrieb mein früherer Redaktionskollege Andreas Schultheis eine Story unter dem Titel: Die Stimme als ultimatives Interface – Automatische Sprachsysteme und die Servicegesellschaft.

Ab und zu ist es ja ganz erhellend, ältere Geschichten noch einmal aus dem Archiv zu kramen und mit der Realität abzugleichen. Damals zitierten wir sogar den Wissenschaftler Norbert Bolz, der damals noch nicht als rechte Knalltüte unterwegs war.

Jedenfalls hatte Bolz in seiner Keynote bei den Bonner Voice Days im alten Plenarsaal des Bundestages die Stimme zum wichtigsten Interaktionstool der Zukunft erklärt. „Alle Utopien gehen seit Jahrzehnten in diese Richtung, weil damit ja auch gesagt wird, dass jeder mit der Grundausstattung seiner Menschlichkeit, dem Vermögen, seine Stimme zu erheben, zu fragen und zu antworten, mit den komplexesten Formen von Technologie umgehen könnte“, so der Medien- und Kommunikationswissenschaftler.

Die Stimme ist das natürlichste Interaktionsmedium schlechthin und, so schreibt es Mladen Dolar, Professor für Philosophie an der Universität Ljubljana, die „natürliche Plattform der Bedeutungsproduktion“. „Nichts erscheint uns so vertraut wie die Stimme“, schreibt Dolar in seinem Buch „His master’s voice – Eine Theorie der Stimme“. 

„Unaufhörlich gebrauchen wir unsere Stimmen und hören wir Stimmen zu; unser ganzes Sozialleben ist durch Stimmen vermittelt“, so der Philosoph. Unter anderem erinnert er an die Bedeutung der Stimme im Charlie Chaplin Klassiker „Der große Diktator“: So höre man in der Eröffnungsrede des Diktators Hynkel „eine nicht existierende Sprache mit allen Merkmalen des Deutschen (ein paar aberwitzige, unverkennbar deutsche Wörter sind untergemischt). Wir verstehen kein Wort (oder buchstäblich nur ein Wort hier und da wie ‚Sauerkraut’); die Stimme und ihre Theatralität, die Stimme jenseits aller Bedeutung werden als die wesentlichen Eigenschaften des Diktators hervorgehoben“, so analysiert der Autor. Hynkels ganze Rede sei „nichts anderes als eine Inszenierung und eine Choreographie der Stimme.“ 

Für Bolz ist die Bedeutung der Stimme längst definiert: „Wenn Sie auf Ihr Auto zugehen und können es öffnen und starten, indem Sie es ansprechen, das lässt sich niemals überbieten“, erläutert er einen alten Traum der Zivilisation. Heute wolle jeder Mensch als Individuum wahrgenommen werden. „Das individuellste, was es gibt, ist die eigene Stimme, das sich selber Verlautbaren, und das trifft natürlich auf die logische Unmöglichkeit, dass man Millionen und Abermillionen Kunden individuell behandelt“, so Bolz. Die Lösung für dieses Problem könne nur Automatisierung heißen, „weil Millionen von Verbrauchern als Einzelne behandelt werden wollen, auf der anderen Seite aber diesen Millionen keine entsprechende Anzahl von Kommunikationspartnern gegenübergestellt werden kann.“

Voice werde auch im Self Service die entscheidende Rolle spielen. „Wir haben eine viel elaboriertere Vorstellung von Service, da wir nämlich sagen, dass wir Leistungen, die wir mit geringem Aufwand und großer Effektivität selber erledigen können, auch selber erledigen.“ Als Beispiel führte er die Menge von E-Mails an, bei denen viele Chefs schon dazu übergegangen sind, diese selbst zu bearbeiten. Zeit- oder kostenaufwändige Dienstleistungen würden dagegen eingekauft (kicher, hier merkt man, dass dieses Opus schon über 12 Jahre auf dem Buckel hat, gs).

„Künftig werden wir weitere Bereiche sehen, in denen sich die Sprachlösungen durchsetzen. Der Grund liegt darin, dass der Sprachcomputer rund um die Uhr erreichbar ist. Die Unternehmen können damit Standardprozesse an das Sprachdialogsystem übergeben und Mitarbeiter für beratungsintensivere Tätigkeiten freischaufeln“, bestätigt Lupo Pape, Geschäftsführer des Berliner Unternehmens.

Es würden schrittweise neue Systeme in verschiedenen Branchen an den Markt kommen, die neue Qualitätskriterien erfüllen, aber eben auch die entsprechende Technologie haben, um das überhaupt leisten zu können. Entscheidend werde der Anrufer oder der Nutzer selbst sein, der mit dem System umgehen muss. Sprachverarbeitende Technologie, davon ist auch Norbert Bolz überzeugt, werde in der Servicegesellschaft eine noch größere Rolle spielen, auch wenn der Voice Self Service dem Kunden eine andere emotionale Einstellung abverlange als der Internet Self Service, wo man genau wisse, dass man mit einem Programm im Dialog stehe.

Beim Umgang mit Voice sei die Möglichkeit eines Fehlschlages viel größer, weil die Gefühlskomponente so stark sei wie bei keiner anderen Interaktionsform. Nichts anderes simuliere die menschliche Interaktion so sehr wie das ‚gesprochene’ Wort, so der Forscher. „Ich persönlich kenne überhaupt keinen Zukunftsforscher oder Technologen, der Zukunftsszenarien entwickelt und nicht davon ausgehen würde, dass die Stimme letztlich das ultimative Interface ist“, sagte Bolz in Bonn.

„Es ist abzusehen, dass Unternehmen, die für Kommunikationsprobleme die größte Sensibilität haben, im 21. Jahrhundert am erfolgreichsten wirtschaften werden.“

Das Geheimnis eines guten Interface Design ist, das Interface verschwinden zu lassen. Die Leute also gar nicht mehr spüren lassen, dass sie es mit Technik zu tun haben und das kann man letztlich nur mit einem einzigen Medium erreichen – nämlich im Medium der Stimmen. Und insofern würde ich sagen, die Stimme ist das ultimative Interface. Stimme ist das Beste, was Service bieten kann, aber- und das muss man Aufrichtigerweise genau an dieser Stelle auch sagen – gleichzeitig ist aber auch dieses Voice Interface, dieser Voice Service das riskanteste, was es gibt.

Mein Part für die Titelstory:

Dialogsysteme, semantisches Web und das Ende der Google-Ära – Antwortmaschinen statt Linküberflutung

Der von Tim O’Reilly geprägte Begriff Web 2.0 hat sich zum Inbegriff des neuen Internet-Booms entwickelt. Nun arbeitet man an Konzepten für eine Weiterentwicklung. „Wenn wir über unseren Umgang mit Computern reden, verbinden wir das immer noch damit, vor einem Bildschirm zu sitzen und auf einer Tastatur zu tippen. Aber Computer werden immer mehr in den Hintergrund gedrängt. Die offensichtliche Veränderung ist zunächst, dass auch mobile Endgeräte oder Mobiltelefone als Plattform dienen. Damit ist auch verbunden, dass Spracherkennung immer besser wird. Oder dass Fotoapparate mittlerweile mit GPS ausgestattet sind“, erklärt Tim O-Reilly. Wenn das Handy mit intelligenter Sprachtechnik ausgerüstet wird, könnte es sich nach Expertenmeinung zu einem sehr nützlichen persönlichen Assistenten entwickeln. „Solche Visionen einer Antwortmaschine geistern seit einiger Zeit unter dem Schlagwort Web 3.0 beziehungsweise Semantic Web durch das Internet“, schreibt die Nachrichtenagentur ddp.

Dialogsysteme seien nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge, geeignet, den Zugriff auf das vernetzte Weltwissen zu verbessern: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären sofort ‚er-googlen‘ würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen.

Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und der Maus tun und das ganze jederzeit und von jedem Ort aus“, so der Sprachdialogexperte Pape. Die fehlenden Bausteine dafür seien jetzt schon verfügbar, so dass es nur eine Frage der Zeit sei, bis sich die Menschen weltweit an dieses neue Interface gewöhnt haben. „Die Spracherkennung im personalisierten Diktiermodus ist schon sehr ausgereift, die mobilen Datenzugriffe werden immer schneller und auch Flatrates im Mobilfunk werden vermutlich bald genauso verbreitet sein wie im DSL-Geschäft“, prognostiziert Pape.

Viele Informationen würden bereits strukturiert vorliegen, wie Fahrplaninformationen, Telefonnummern, Sportergebnisse, bewertete Restaurants und sonstige Adressen. „Was fehlt, ist eine Art Yahoo des ‚Voicewebs‘, über das sich jeder personalisiert seine gewünschten Angebote zusammenstellen und über Sprache oder Multimodale Interfaces abfragen kann“, so Pape.

Zu einer ähnlichen Einschätzung gelangt Professor Wolfgang Wahlster, im Jahr 2007 noch Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI): „Das Web 2.0 ist ein primär syntaktisches Web mit Layout-, aber ohne Bedeutungsannotationen“, so Wahlster gegenüber ddp.

Das führe zu einer Informations- beziehungsweise Linküberflutung, da beispielsweise Textdokumente letztlich auf eine sinnfreie Kombination aus Buchstaben reduziert werden, Fotos und Videos sind nur Ansammlungen von verschiedenfarbigen Pixeln.

Die semantische Wende aber führe zu einem hochpräzisen Antwortverhalten in einem Web, das Sinnzusammenhänge in den Mittelpunkt stellt. „Wenn es also gelingt, die Semantik von Texten, Bildern, Gesten und künstlerischen Darbietungen durch standardisierte Begriffe so zu formalisieren, dass die so gewonnenen Daten maschinenlesbar sind, dann könnte die Vision der Antwortmaschine Realität werden. Eine Suchmaschine wie Google wäre dann überflüssig“, spekuliert ddp. 

Für den Sprung ins Web 3.0-Zeitalter sei Deutschland gut gerüstet, weiß Wahlster und verweist auf das Projekt Theseus: Bundeswirtschaftsministerium, Forschungsinstitute und Firmen wie Bertelsmann, Siemens und SAP wollen in den kommenden fünf Jahren rund 200 Millionen Euro investieren, um beim Internet der Zukunft die Nase vorn zu haben. 

Wenn man sich die deutsche Forschungslandschaft für Künstliche Intelligenz betrachtet, sei man nach Ansicht von Bernhard Steimel, Sprecher der Initiative Voice Business, auf einem guten Weg. „Im Gegensatz zu anderen Ländern verfolgen wir einen sehr pragmatischen und anwendungsbezogenen Ansatz. Unsere Wissenschaftler entwickeln in enger Kooperation mit der Wirtschaft Technologien für den Alltag, die wir als Errungenschaften der KI-Forschung gar nicht mehr wahrnehmen – etwa bei der Analyse natürlicher Sprache. Mit rund 120 Unternehmen, die Dialogsysteme für Navigationsgeräte, Fahrkartenautomaten, Logistiksysteme oder Diktiersoftware entwickeln und marktfähig machen, liegen wir international an der Spitze. So zählt der Physik-Nobelpreisträger Theodor Hänsch das SmartWeb-Projekt von Professor Wahlster zu den 100 Produkten der Zukunft , die unser Leben verändern werden – das ist sicherlich kein Zufall“, resümiert Steimel. 

Soweit die Ausführungen 2007. Meine kurze Wertung.

Mit Alexa und Co. ist ein deutlicher Sprung bei der natürlichen Spracherkennung gemacht worden. Aber als ultimatives Interface hat sich die Stimme immer noch nicht durchgesetzt.

Und Theseus? Kann man bei Wikipedia nachlesen.

Die Vision einer Antwortmaschine sehe ich noch nicht realisiert. Wie seht ihr das?

Kommentar verfassen