„Sagen Sie ‚Bananen'“: Warum Sprachcomputer Prozesse automatisieren sollten und nicht Menschen – Auf den Spuren von Hofkammerrat Kempelen

Wird über Sprachautomatisierung debattiert, fallen sicherlich jedem Konsumenten sofort eine Reihe nerviger Hotline-Ansagetexte ein, die den Blutdruck in Wallung bringen. Trefflich auf die Spitze getrieben im Werbefilm von Yello Strom am Obststand mit dem roboterhaften Verkäufer und seinem Ansagetext: „Interessieren Sie sich für unsere Bananen, sagen Sie ‚Bananen’……“ Dem Stand der Forschung und dem Ansinnen der Wissenschaftler werden die endlos kolportierten Negativbeispiele nicht gerecht. Schon im 18. Jahrhundert war der Hofkammerrat Wolfgang von Kempelen unter Maria Theresia und Joseph II. davon beseelt, eine Sprechmaschine zu erfinden, die dem Menschen nützt: Der aufklärerisch gesinnte Beamte konstruierte einen Apparat, der gehörlose Menschen zur Lautsprache führen konnte. Die Maschinen-Sprache sollte nicht nur hörbar, sondern vor allem für das Auge verständlich werden. Kempelen äußerte sich optimistisch, „dass die Maschine ohne sonderliche Kunst mit Tasten, wie ein Klavier oder eine Orgel einzurichten wäre, dass Spielen auf derselben, gegen die dermalige Art Jedermann viel leichter fallen würde“, berichtet 1792 das „Magazin für das Neueste aus der Physik und Naturgeschichte“ (Band 8, Seite 101).

Die Idee, dass ein lebendiger Organismus gemäß den Gesetzen von Physik funktioniert und prinzipiell mit Mitteln der Mechanik simuliert werden kann, war spätestens seit dem 17. Jahrhundert nicht länger unklar und verdächtig, sondern wissenschaftliche Hypothese. Die Pionierarbeit von Kempelen wirkte bis ins 20. Jahrhundert: auf Persönlichkeiten wie Charles Babbage, dem „Father of computing“, Homer Dudley, der den Voice Operation Demonstrator (VODER) baute oder auf Mathematiker wie John von Neumann und Norbert Wiener, die sich mit Sprache und Logik beschäftigten. Durch die Sprachsteuerung per Computer ist das Kempelen-Werk sicherlich nicht mehr relevant. „Wissenschaftsgeschichtlich jedoch ist es nach wie vor von Bedeutung, ebenso seine Ansichten und seine philosophische Betrachtungsweise“, erläutert die Kempelen-Expertin Alice Reininger von der Universität für angewandte Kunst in Wien.

Auch heute gehe es nach Ansicht von Andreas Latzel, Deutschlandchef der Aastra-Gruppe, bei der Sprachtechnologie um einen humanitären Ansatz: „Es sollen Prozesse automatisiert werden und nicht Menschen“. Als Beispiel nennt er die Altenpflege. Die von seiner Firma entwickelte Technik soll Pflegedokumentationen in der stationären Altenhilfe einfacher, schneller und besser machen: „So ist eine Nachtschwester für viele Bereiche und Bewohner zuständig und kann nicht alle Akten ständig bei sich tragen. Die Spracherfassung über das mobile Telefon vereinfacht die Dokumentation, sichert die Qualität und spart nebenbei noch Zeit“, sagt Latzel.

Wichtige Erfahrungen mit dem Aastra-Programm OPAS Sozial wurden in dem vom Bundesministerium für Familie, Senioren, Frauen und Jugend geförderten Pilotprojekt „Das intelligente Heim“ gesammelt und von Pflegewissenschaftlern ausgewertet: „Mithilfe der Spracherkennung wird deutlich mehr direkt und zeitnah im Anschluss an die Pflegeleistung dokumentiert. Der Anteil der Personen, die direkt im Anschluss an Maßnahmen dokumentieren, ist von 46 auf 70 Prozent gestiegen. Unter Berücksichtigung des deutlich gestiegenen Dokumentationsvolumens hat die eigentliche Dokumentationszeit abgenommen. So geben über 73 Prozent der Befragten an, bei der Dokumentation mit Spracherkennung deutlich Zeit zu sparen“, so der vorläufige Abschlussbericht.

Über 93 Prozent der beteiligten Mitarbeiter gaben zu Protokoll, dass die Dokumentationsanwendung mit Spracherkennung leicht bedienbar sei. 90 Prozent der Pflegekräfte wollen mit dem Prototyp oder einem ähnlichen System weiterarbeiten. 85 Prozent der Umfrageteilnehmer würden die Dokumentation mittels Spracherkennung anderen Dokumentationsmethoden vorziehen. Eine funktionierende Spracherkennung unterstütze die Dokumentation, so dass zahlreiche Einsatzgebiete der Spracherkennung – weit über die Erstellung des Verlaufsberichts hinaus – denkbar seien. „70 Prozent der Pflegekräfte geben an, dass das Dokumentationsvolumen und die Dokumentationsqualität im Rahmen der Dokumentationsarbeit mit der Spracherkennung deutlich gestiegen sind. Dies wird auch durch die entsprechenden Leiter der Heimträger bestätigt“, so das Fazit der Pflegewissenschaftler. Auf der Call Center World in Berlin wird Aastra branchenspezifische Lösungen vorstellen, unter anderem das multimediale Sprachdialogsystems Aastra Voice Portal 7.5. Nach Firmenangaben versteht es umgangssprachliche Äußerungen ebenso wie komplette Sätze und lässt sich jederzeit unterbrechen. Darüber hinaus werden die Antworten anhand des bisherigen Dialogverlaufs und der jeweiligen Aufgabenstellung generiert. Sind beispielsweise im Kino Filme noch nicht angelaufen oder keine Karten mehr verfügbar, werden Anrufer frühzeitig informiert und müssen sich nicht erst durch die gesamte Dialogstruktur quälen – wie bei menügesteuerten Systemen.

Spracherkennungssysteme im Test – 02/09-Ausgabe des IT-Magazins IX

In dem Artikel werden nach Angaben des Heise-Verlages die Produkte Dragon Naturally Speaking, Macspeech Dictate und Voice Pro (Spracherkennung) sowie Finereader, OmniPage Professional, ReadRris Pro, IRISpdf und Recognition Server (OCR) näher betrachtet. Seit dem 22. Jan. im Zeitschriftenhandel. Werde es mir besorgen und darüber berichten.

Virtuelles Fräulein vom Amt – Sprachgesteuerte Handys als Tipping Point des Internets

Die Sprachsteuerung des iPhones mit „Google Mobile App“ http://googlemobile.blogspot.com wird von Web 2.0-Pionier Tim O’Reilly als „Tipping Point“ gewertet: Der Begriff  bezeichnet jenen Moment, in dem etwas Einzigartiges zum Normalzustand wird und einen qualitativen Umschlagspunkt markiert. „Es ist es an der Zeit, Telefone als erstklassige Geräte zu sehen, um auf das Internet zugreifen zu können, und nicht nur als Möglichkeit, Inhalte und Anwendungen umzuwidmen, die ursprünglich dazu gedacht waren, mit einer Tastatur und einem Bildschirm gelesen zu werden“, schreibt O’Reilly in seinem Blog http://radar.oreilly.com. Mit der Sprachsteuerungsfunktion werde ein neuer Weg für Computerdienstleistungen beschritten. „Apple begeisterte uns mit dem iPhone-Touchscreen, aber die Einbeziehung des Beschleunigungsmessers war fast ebenso wichtig; und jetzt hat Google uns gezeigt, wie dieser als Hauptkomponente einer Benutzeroberflächenanwendung eingesetzt werden kann. Legen Sie das Telefon ans Ohr und die Anwendung fängt an mitzuhören; eher durch eine natürliche Geste als durch ein künstliches Klopfen oder Klicken ausgelöst. Ja, der Beschleunigungsmesser wurde bereits in Spielen wie tilt oder the iPint verwendet, aber Google hat das Ganze noch etwas weiter getrieben durch die Integration des Telefon-Hauptsensors: das Mikrofon“, so O’Reilly. Nach seiner Ansicht liegt hier die Zukunft von Mobiltelefonen: eine Benutzeroberfläche zu entwickeln, die alle bisherigen Generationen über Bord wirft. Zeigen und klicken war ein Durchbruch für Computer, aber eine Sackgasse für das Design von Benutzeroberflächen.  

Mittlerweile haben das iPhone und ähnliche Smartphones eine Vielzahl an Sensoren: Mikrofon, Kamera, Touchscreen, Beschleunigungsmesser, und Standortortung. Neue Anwendungen und Kombinationen werden zu weiteren Überraschungen führen. „Künftige Geräte werden eine immer größere Anzahl an Sinnen haben, um darauf zu achten, was wir wollen. Könnte ein Telefon die Bewegung erkennen, die wir machen, wenn wir eine Kamera vor uns hochhalten, damit wir die Einstellungen festlegen können? Könnten wir mit dem Telefon reden um Kameraeinstellungen zu verändern? Könnte ein Telefon automatisch die Bewegung eines Autos erkennen und auf Sprachwahl umstellen? Und dann gibt es natürlich noch alle weitere Interaktionen mit anderen Geräten die möglich sind, wenn wir das Telefon als Steuerteil betrachten – ähnlich der Wii-Konsole von Nintendo“, erklärt O’Reilly. 

Auch in der ITK-Branche erwartet man Impulse über die Sprachsteuerung: „Computer werden heute immer noch primär über eine Tastatur bedient, die aus der Schreibmaschine entstanden ist, so als ob jeder Tastendruck einen mechanischen Hebel in Bewegung setzt. Selbst der Zeilenvorschub und Wagenrücklauf alias Carriage return ist uns erhalten geblieben, obwohl damit schon lange kein Papier mehr transportiert wird. Telefone haben zwar die Revolution von der Wählscheibe hin zur – in der Regel – 3×4 Tastatur gemacht, standardisiert nach ITU E.161, das erfolgte aber bereits in den 70er Jahren. Selbst moderne Handys und Smartphones halten sich noch an den Tastenwahlblock, entweder in mechanischer Ausführung oder als Icon-Darstellung auf einem Touchscreen“, weiß Andreas Latzel, Deutschland-Chef des ITK-Spezialisten Aastra http://www.aastra.de, der viel Wert auf die Benutzerfreundlichkeit seiner Systeme legt. Die Technikentwicklung sei zwar rasant schnell und ein gutes User-Interface inzwischen intelligent sowie kontextbezogen – im Kern aber immer noch traditionell. Vorhersehbar sei, dass der Tastaturblock an seine Grenzen stoße – spätestens mit der breiten Einführung der SIP-Telefonie und der SIP-Teilnehmeradressen.

„Anders als bei professionellen Tischgeräten kommt die Ausstattung von Handys mit alphanumerischen Tastaturen zwar auch vor, ist aber in der Regel wegen der beschränkten Abmessungen nicht befriedigend. Da bietet sich der Weg zum Sprachinterface an: der Ansage von Adressen oder Einträgen des Telefonbuchs in normaler Sprachform. Sinnvoll ist das beim Autofahren oder anderen Tätigkeiten, die beide Hände verlangen. Ein gutes Beispiel im professionellen Umfeld ist die Pflege in Altenheimen mit der Aastra-Branchenlösung OPAS. Hier kann beispielsweise mittels Telefon und Sprache die erbrachte Leistung dokumentiert werden – das Pflegepersonal gewinnt viel mehr Zeit für die Bewohner“, sagt Latzel. Übrigens schlage die Technik mit der Sprachwahl den Bogen zurück zu den Anfängen des Telefons vor der Einführung des Selbstwählsystems: damals aktivierte man den Telefonapparat durch Erzeugung einer Rufspannung über den Kurbelinduktor und sagte dem „Fräulein vom Amt“, mit welchem Teilnehmer man sprechen möchte. „Im modernen Telefon mit Sprachinteraktion wird das Fräulein von einer Software ersetzt“, so Latzel. In Kombination mit den Datenwolken von Google ergeben sich nach Prognosen von O’Reilly ungeahnte Möglichkeiten. „Sensorenreiche Geräte mit Anwendungen, die diese Sensoren nutzen, um mit Datenwolkendiensten zu interagieren und sie zu füttern. Der Standortsensor weiß, wo man sich befindet; das Mikrofon erkennt den Klang der Stimme, so dass es persönliche Daten in der Datenwolke frei setzt; die Kamera nimmt Objekte und Personen auf und sendet ein Bild zu einer abgelegenen Anwendung, die diese erkennt und die entsprechenden Informationen abruft“, führt O’Reilly aus. Viele Durchbrüche würden bereits vor der Tür stehen. Die Stimmen- und Gestenerkennung in der Google Mobile-Anwendung seien nur der Anfang. Der gleichen Meinung ist der Berliner Sprachdialogexperte Lupo Pape: „Es ist erst einmal eine Sprach- oder Diktiererkennung, die auf einer Suchmaschine und demnächst sogar auf weiteren Handyfunktionen aufsetzt. Sprachdialogsysteme werden es erst, wenn ein Wissen über die Domäne und Dialogintelligenz hinzukommen. Das ist das, was wir mit dem Personal Assistant umsetzen. Dazu müssen die Wissensgebiete semantisch aufbereitet und Dialogstrategien hinterlegt werden. Die wichtigsten Use-Cases gilt es zu modellieren“, resümiert SemanticEdge-Geschäftsführer Pape.

 

Siehe auch:

http://de.youtube.com/watch?v=y3z7Tw1K17A&eurl=http://googlemobile.blogspot.com/

http://googleblog.blogspot.com/2008/11/now-you-can-speak-to-google-mobile-app.html

 

Speak now! iPhone mit der eigenen Stimme steuern – Google-Programm wird als Meilenstein für die Durchsetzung der Sprachautomatisierung gewertet

01Jetzt ist es offiziell. Google stattet das iPhone von Apple mit einem Programm zur Sprachsteuerung aus. Das Mobile App macht es möglich, die Websuche mit der eigenen Stimme zu starten, heißt es im Mobile-Blog von Google http://googlemobile.blogspot.com. Bislang allerdings nur in englischer Sprache. Die umständliche Bedienung der Handytastatur fällt weg. In Kombination mit My Location kann man auch standortbezogene Informationen beziehen. Experten halten das für einen Meilenstein bei der Durchsetzung von Programmen für die Sprachautomatisierung. Anfang des Jahres wurde auf der Call Center World http://www.callcenterworld.de in Berlin noch darüber spekuliert, wie die Sprachdialogszene am Super-Handy bastelt: Fortschrittliche Mensch-Maschine-Schnittstellen wie Spracherkennung oder Gestensteuerung könnten aus dem Handy eine Steuerzentrale für Online-Inhalte machen und neue Geschäftsmodelle eröffnen: Sprachdialogsysteme sind nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und Maus tun und das ganze jederzeit und von jedem Ort aus”, erklärte Pape in Berlin. Mit der Sprachsteuerungstechnik für das iPhone wird diese Vision zur Realität. Am Nutzer der frei abrufbaren Anwendung müssen nur das Telefon an ihr Ohr halten und können dann praktisch jegliche Art von Fragen stellen, wie beispielsweise „Wo finde ich den nächst gelegenen Starbucks?“ oder „Wie hoch ist der Mount Everest?” Der Sprachlaut wird in eine digitale Datei konvertiert und anschließend an die Server von Google weitergeleitet. Die Suchergebnisse schließen zum Teil lokale Informationen mit ein. Dabei nutzt man die iPhone-Funktionen für die Bestimmung des konkreten Standorts. Die Fähigkeit, fast jeden gesprochenen Satz von einer x-beliebigen Person identifizieren zu können, war lange Zeit das höchste Ziel der Forscher für Künstlichen Intelligenz. Das Management von Google hat noch nicht kommuniziert, wann der Service ausgereift sein soll. Die Verantwortlichen sagten nur, dass der Service zumindest akkurat genug ist, um den Nutzern den großen Vorteil zu bieten, nicht mehr wie bisher ihre Anfragen auf der Bildschirm-Tastatur ihres iPhones eintippen zu müssen. Der Service kann genutzt werden, um Restaurant-Empfehlungen und Anfahrtsbeschreibungen zu erhalten, oder aber um Kontaktadressen aus dem Adressverzeichnis abzurufen. Auf die Frage “Welches ist das beste Pizza-Restaurant in Noe Valley?” würde das Google-System beispielsweise mit einer Liste von drei Restaurants in der Nachbarschaft von San Francisco reagieren, jede einzelne mit Sterne-Kategorie-Beurteilungen der Google-Nutzer und weiterführenden Links, durch die man Telefonnummern und Wegbeschreibungen anklicken kann.

Für Google ist die Technologie von entscheidender Bedeutung, um den nächsten Ansturm auf die Werbewelt vorzubereiten. Das Management kommentierte dies mit der Aussage, dass man durch lokale Anfragen beispielsweise höhere Werbekostensätze von Unternehmen aus der Region verlangen könne, obgleich der Verkauf einer solchen Werbeform bisher nicht Bestandteil ihres Portfolios sei. Wie auch bei den übrigen Produkten von Google ist dieser Service für die Nutzer frei verfügbar. Außerdem plant das Unternehmen, den Service später auch anderen Telefonsystemen zur Verfügung zu stellen. „Durch die Aspekte ‘Standort’ und ‘Sprache’ erhöhen wir gegenüber den Werbeträgern den Service-Nutzen auf dramatische Weise,” erklärte Vic Gundotra, Ex-Manager von Microsoft und nunmehr verantwortlich für das Mobile Business bei Google. Gundotra wies darauf hin, dass Google es geschafft hätte, das doppelte Problem der Informationseingabe und der Informationsabfrage für mobile Endgeräte erfolgreich zu lösen. „Diese zwei zusammenhängenden Probleme auf Weltklasse-Niveau zu lösen, ist unser oberstes Ziel“, erklärte Gundotra.

Die neue iPhone-Suchmöglichkeit ist nicht das erste Sprachdialog-System von Google. Schon im März hatte das Unternehmen verlauten lassen, dass der Auskunftsdienst GOOG-411 bereits zu einem reellen Produkt herangereift sei. Die Erfahrungswerte und Dateninformationen, die es durch das GOOG-411 gewinnen konnte, wurden für die Entwicklung für das iPhone herangezogen. Die neue Dienstleistung ist nach Expertenmeinung ein gutes Beispiel dafür, wie Google es schafft, elementare Informatik-Forschung mit Produkttechnik zu verbinden. Um dies zu erreichen, wurden einige der besten Spracherkennungs-Forscher der Welt engagiert. Die Teams in New York, London und Mountain View bearbeiten die Problematik aus unterschiedlichen Blickwinkeln. Wer von den Suchanbietern das Rennen um die Hoheit beim mobilen Internet gewinnen wird, hängt nach Auffassung von Voice Days-Sprecher Bernhard Steimel http://www.voicedays.de davon ab, wer den „Kampf um die besten Köpfe“ mit der größten Marktmacht verbinden kann. „Den Kampf um die Köpfe hat Google bereits gewonnen – besonders durch die Art von Google, immer alles neu zu entwickeln und die geniale Strategie, mit GOOG411 im weltgrößten ‚Freiland-Versuch’ das eigene Sprachmodell zu validieren und mit einer exzellenten Qualität aufzuwarten“.

Siehe auch:

http://de.youtube.com/watch?v=y3z7Tw1K17A&eurl=http://googlemobile.blogspot.com/

http://googleblog.blogspot.com/2008/11/now-you-can-speak-to-google-mobile-app.html


Sprachsteuerung: Google macht das iPhone zum Super-Handy

Im Februar 2008 hatte ich schon darüber berichtet, wie die Sprachdialogszene am Super-Handy bastelt: Fortschrittliche Mensch-Maschine-Schnittstellen wie Spracherkennung oder Gestensteuerung könnten aus dem Handy eine Steuerzentrale für Online-Inhalte machen und neue Geschäftsmodelle eröffnen: Sprachdialogsysteme sind nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und Maus tun und das ganze jederzeit und von jedem Ort aus”, erklärt Sprachdialogexperte Pape zum Start der Call Center Worldhttp://www.callcenterworld.de in Berlin. Seit Freitag wissen wir, dass das keine Hirngespinste sind. Google bringt die Sprachsteuerungstechnik auf das iPhone. 

Nutzer der frei abrufbaren Anwendung müssen nur das Telefon an ihr Ohr halten und können dann praktisch jegliche Art von Fragen stellen, wie beispielsweise „Wo finde ich den nächst gelegenen Starbucks?“ oder „Wie hoch ist der Mount Everest?“ Der Sprachlaut wird dann in eine digitale Datei konvertiert, die anschließend an die Server von Google weiter geleitet wird. Dort werden die gesprochenen Worte ermittelt, die im Anschluss daran an die Google Suchmaschine gehen. 

Die Ergebnisse dieser Suche, die in nur wenigen Sekunden auf einem schnell arbeitenden drahtlosen Netzwerk angezeigt werden können, schließen zum Teil lokale Informationen mit ein. Dabei macht man sich die Funktionalitäten des iPhones zu Nutze, über die man den konkreten Standort bestimmen kann.

Die Fähigkeit, fast jeden gesprochenen Satz von einer x-beliebigen Person identifizieren zu können, war lange Zeit das höchste Ziel der Forscher für Künstlichen Intelligenz. Ihr Bestreben galt dabei besonders dem Erforschen von Methoden, die bewirken sollen, dass die Interaktionen zwischen Mensch und Maschine zu einer Selbstverständlichkeit werden. Systeme, die mit einer solchen Fähigkeit ausgestattet sind, haben kürzlich damit begonnen, als kommerzielle Produkte die Märkte zu erobern.

Sowohl Yahoo als auch Microsoft bieten bereits Sprachdienstleistungen für Handys an. So gibt der Microsoft Tellme Service Informationen nach speziellen Kategorien, wie beispielsweise Anfahrts- und Wegbeschreibungen, Landkarten und Spielfilme wieder. Das Yahoo oneSearch System mit Spracherkennung ist im Vergleich dazu flexibler, dafür scheint es aber nicht so akkurat zu funktionieren wie das Angebot von Google. Das Google-System ist noch lange nicht perfekt und sendet beispielsweise Anfragen zurück, die wie Kauderwelsch klingen. Das Management von Google hat sich bisher zurückgehalten, Schätzungen bekannt zu geben, die besagen, wie oft der Service korrekt funktioniert. Die Verantwortlichen sagten nur, dass sie der Meinung seien, dass der Service zumindest akkurat genug ist, um den Nutzern den großen Vorteil zu bieten, nicht mehr wie bisher ihre Anfragen auf der Touchbildschirm-Tastatur ihres iPhones eintippen zu müssen.

Der Service kann genutzt werden, um Restaurant-Empfehlungen und Anfahrtsbeschreibungen zu erhalten, oder aber um Kontaktadressen aus dem iPhone Addressverzeichnis abzurufen. Genauso kann der Service dafür nützlich sein, Auseinandersetzungen in Bars zu bereinigen. Auf die Frage “Welches ist das beste Pizza-Restaurant in Noe Valley?“ würde der Service beispielsweise mit einer Liste mit drei Restaurants in der Nachbarschaft von San Francisco reagieren, jede einzelne mit Sterne-Kategorie-Beurteilungen von Google Nutzern und weiterführenden Links, durch die man Telefonnummern und Wegbeschreibungen anklicken kann.

Raj Reddy, ein Wissenschaftler der Künstlichen Intelligenz an der Carnegie Mellon University, der Pionierarbeit in der Spracherkennung geleistet hat, sagte, dass der Vorteil von Google sei, riesige Mengen an Daten zu speichern und zu analysieren. „Welches Produkt Google auch immer zum jetzigen Zeitpunkt auf den Markt bringt, wird schon in drei oder sechs Monaten signifikant an Fehlerfreiheit und Akkuratesse hinzu gewonnen haben“, erklärte Reddy.

Reddy fügte ferner hinzu: „Es ist wichtig zu verstehen, dass Spracherkennungssysteme nie richtig perfekt sein können. Die Frage sollte vielmehr lauten: bis zu welchem Punkt ist die Maschinenleistung in der Lage, sich der menschlichen Leistung zu nähern?“ Für Google ist die Technologie von entscheidender Bedeutung, um den nächsten Ansturm auf die Werbewelt vorzubereiten. Das Management von Google kommentierte dies mit der Aussage, dass man durch lokale Anfragen beispielsweise höhere Werbekostensätze von Unternehmen aus der Region verlangen könnte, obgleich der Verkauf einer solchen Werbeform bisher nicht Bestandteil ihres Portfolios sei.

Wie auch bei den übrigen Produkten Googles ist dieser Service für die Nutzer frei verfügbar. Außerdem plant das Unternehmen, den Service später auch anderen Telefonsystemen zur Verfügung zu stellen.

„Durch die Aspekte ‚Standort‘ und ‚Sprache‘ erhöhen wir gegenüber den Werbeträgern den Service-Nutzen auf dramatische Weise,” erklärte Vic Gundotra, ein ehemaliger leitender Angestellter von Microsoft, der nun das Mobile-Business bei Google leitet.

Dabei ist Google keinesfalls das einzige Unternehmen, das daran arbeitet, zukunftsweisende Spracherkennungs-Ressourcen zu erschließen. Eine so genannte Spracherwiderungstechnologie kommt schon heute regelmäßig bei telefonischen Anrufbeantwortersystemen und anderen Verbraucherdienstleistungen und -produkten zum Einsatz. Allerdings haben diese Systeme oft Schwierigkeiten mit der Komplexität von Dialogen. Außerdem offerieren sie in der Regel nur ein eingeschränktes Repertoire an Antworten auf die eingehenden Anfragen.

Vor einigen Wochen hatte Adobe seiner Creative Suite Software die von dem britischen Unternehmen Autonomy entwickelte Spracherkennungstechnologie hinzugefügt. Dadurch wurde die Möglichkeit geschaffen, Videokopien und Audio-Aufzeichnungen mit einem hohen Grad an Genauigkeit zu erstellen.

Gundotra wies darauf hin, dass Google es geschafft hätte, das doppelte Problem der Informationseingabe und der Informationsabfrage für mobile Endgeräte erfolgreich zu lösen.

„Diese zwei zusammenhängenden Probleme auf Weltklasse-Niveau zu lösen, ist unser oberstes Ziel“, erklärte Gundotra.

Die neue iPhone Suchmöglichkeit ist nicht das erste Sprach-basierte Angebot von Google. Schon im März hatte das Unternehmen verlauten lassen, dass das GOOG-411, ein experimenteller Auskunftsdienst, bereits zu einem reellen Produkt herangereift sei. Der Service eröffnet Nutzern die Möglichkeit, Geschäfts-Telefonnummern und Adressinformationen abzufragen. Google sagte, dass es sich die Erfahrungswerte und Dateninformationen, die es durch das GOOG-411 gewinnen konnte, für die Entwicklung des iPhone Services zu Nutze gemacht hätte.

Die neue Dienstleistung ist ein gutes Beispiel dafür, wie Google es schafft, elementare Informatik-Forschung mit Produkttechnik zu verbinden. Um dies zu erreichen hat das Unternehmen einige der besten Spracherkennungs-Forscher der Welt engagiert. Die Teams in New York, London und dem Hauptsitz in Mountain View bearbeiten die Problematik aus unterschiedlichen Blickwinkeln.

Ein verblüffender Teil des Gesamtdesigns der Dienstleistung wurde von einem Google-Researcher aus London beigesteuert, der eine Möglichkeit entdeckte, wie man den iPhone Akzelerometer nutzen kann — das Gerät, das per Sensortechnik erkennt, wie das Telefon gehalten wird. Die Researcher von Google erklärten, dass ein weiterer Vorteil gegenüber der Konkurrenz in der Tatsache bestehen würde, dass die Verbraucher in den vergangenen Jahren bereits Milliarden von Anfragen bei Google getätigt hätten, was allein schon für eine große Erfahrungskompetenz spräche.

„Eine Sache, die sich geändert hat, ist die heute verfügbare Berechnungsgröße und die Datenmenge“, erklärt der Sprachforscher Mike Cohen, der bevor er zu Google kam, als Mitbegründer bei Nuance Communications tätig war. Cohen empfahl darüber hinaus, dass frühere Anfragen dazu genutzt werden könnten, ein statistisches Modell zu erstellen, das demonstriert, auf welche Art und Weise Wörter häufig in einer aneinander gereihten Form auftreten. Dies ist nur eine der vielen Komponenten des Spracherkennungssystems, zu dem außerdem ein Sprachlaut-Analyse-Modell zählt ebenso wie ein Mechanismus, der es ermöglicht, die elementaren Sprachkomponenten mit tatsächlichen Wörtern zu verknüpfen.

Google hat vor kurzem ein technisches Dokument über die Entwicklung von umfangreichen Modellen zur maschinellen Übersetzung der Sprache veröffentlicht. Die Forscher schrieben dazu, dass sie das System an zwei Billionen „Informationsmerkmalen“ oder Wörtern erprobt hätten.

Hier die Demonstration des Dienstes auf Youtube: http://de.youtube.com/watch?v=GQ3Glr5Ff28


 

Semantisches Web und das Ende der Google-Erfolgsstory – Suchmaschinen sollen mit Alltagswissen ausgestattet werden

Vision und Praxis von so genannter Semantik- und Web-2.0-Technologie thematisierte die Konferenz Triple-I in Graz: Mit der Einbindung von Alltagswissen will Henry Lieberman vom MIT dafür sorgen, dass Computer Menschen tatsächlich verstehen.

„Wenn wir wollen, dass Computer Menschen wirklich helfen, dann brauchen die Rechner Zugriff zu Alltagswissen“, so Henry Lieberman, Leiter der Software Agent Gruppe am Massachusetts Institute of Technology MIT, auf der Wissensmanagement-Konferenz Triple-I.

Dazu sammelt sein Team grundlegende triviale Informationen und entwickelt daraus Ontologien, um beispielsweise die den Satz „Ich bin gefeuert worden“ richtig zu deuten. Mit deren Hilfe wird das Wissen in maschinenlesbare Informationen übersetzt.

Entsprechende Systeme könnten Anwender nach einem Bericht der Computer Zeitung (die es ja schon seit einiger Zeit nicht mehr gibt, gs) zum Beispiel bei der Terminplanung unterstützen. Die Software erkennt etwa, dass der Nutzer für eine bestimmte Verabredung einen Routenplaner oder eine Hotelreservierung benötigt. Dies kann das System verstehen, da es die grundlegende Information hat, dass ein Termin den Aufenthalt an einem anderen Ort erfordert.

„Solche Technologien können laut Lieberman auch in anderen Szenarien zum Einsatz kommen wie etwa bei der Kundenbetreuung oder beim Helpdesk. Ebenso gibt es Versuche, Suchmaschinen mit Alltagswissen auszustatten. Anwender könnten dann Anfragen in natürlicher Sprache eingeben. Damit verheißt der Wissenschaftler das Einlösen des Versprechens, das die semantischen Technologien von Beginn an begleitet: Die Möglichkeit, dass Computer ihre menschlichen Nutzer tatsächlich verstehen“, so die Computer Zeitung.

„Mit der semantischen Suche versucht man die Ergebnisse der Sprachforschung zu nutzen, um Suchbegriffe oder natürlich-sprachliche Suchanfragen tiefer zu analysieren und semantisch anzureichern. Suchergebnisse sollen am Ende präziser und besser strukturiert herausgegeben sowie um viele andere, nahe liegende Themengebiete angereichert werden. Idealerweise kann eine gestellte Frage dann auch in einem Satz beantwortet werden“, erklärt Sprachdialogexperte Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Diesem Trend entgegen komme die immer stärkere semantische Aufbereitung der Webinhalte in vielen Suchbereichen durch Internetnutzer, die weltweit in Netzwerken aktiv seien. Das beste Beispiel hierfür sei Wikipedia. Und genau da setzt die von Microsoft übernommene Firma Powerset an.

„Sie versucht, diese schon strukturiert eingegebenen Inhalte noch besser ‚suchbar’ zu machen und dabei auch natürlich-sprachliche Eingaben zu interpretieren. Das Ergebnis ist sehr viel spannender als die Google-Suche mit den endlosen Trefferlisten“, meint Pape gegenüber NeueNachricht. Das sei genau der richtige Weg und könnte der Anfang vom Ende der Google-Erfolgsstory werden.

Gekoppelt mit Spracherkennung und Sprachsynthese komme man zu ganz neuen Sucherfahrungen.

„Eine gesprochene Frage zu einem beliebigen Thema wird auch durch einen gesprochenen Satz beantwortet. Dieses Szenario ist keinesfalls Science-Fiction, denn parallel zu den Fortschritten in der Suchtechnologie macht auch die Spracherkennung Entwicklungssprünge. Auch die Dialogtechnologie spielt hier ein bedeutende Rolle, da bei vielen Anfragen weiterführende Fragen und Präzisierungen erforderlich sind, die einen intelligenten Dialog erforderlich machen“, sagt Pape.

Die Frage „Wie komme ich jetzt am schnellsten nach Berlin?” mache die Klärung erforderlich, ob man mit dem Zug, dem Auto oder dem Flugzeug reisen möchte.

„Es wird noch lange dauern, bis die vielen Fragen, die irgendjemand zu irgendeinem Zeitpunkt hat. beantwortet werden können. Aber in vielen Domänen, in denen die Informationen semantisch schon sehr gut erschlossen und die wichtigsten Nutzungsszenarien klar sind, ist jetzt schon vieles möglich. Beispielsweise Fahrplaninformationen und Navigationssysteme, um von A nach B zu kommen. Oder Wissensfragen, die über Dienste wie Wikipedia beantwortet werden“, resümiert Pape.

Update vom 26. August 2013: Die Prognose über das Ende der Google-Erfolgsstory lag wohl etwas daneben. Auch beim semantischen Web wartet man ja noch auf dem Durchbruch im Massenmarkt…..

Das verlorene Ego: Auf der Suche nach Identität im Chaos der tausend Karten und Passwörter

„Das Wuchern von Karten und Identitäten ist lästig und widersinnig, wenn man mehrere Karten ziehen muss, um einen einzigen Prozess durchzuführen, etwa beim Bezahlen im Geschäft mit Kundenkarte und Kreditkarte. „Das Kartenhaus der tausend Egos stürzt spätestens zusammen, wenn das Plastikpaket gestohlen oder verloren wird. Ein besonders fruchtbares Biotop für den Wildwuchs täglich neuer Identitäten ist das Internet, angereichert durch ebenso viele Passwörter“, bemängelt Systemarchitekt Bruno Weisshaupt, Geschäftsführer von origo und Autor des Buches SystemInnovation (Orell Füssli-Verlag). Es sei nachvollziehbar, wenn man das Online-Banking durch eine gut abgesicherte Identität schützt. Aber warum müsse man sich in ganz normalen Online-Shops noch immer zuerst anmelden, seine 757. Identität samt Passwort erfinden, um schon im nächsten Schritt ohnehin mit der Kreditkarte zu zahlen. „Sicherheit sieht jedenfalls anders aus: Irgendwann beginnt jeder, seine Identitäten zu notieren, weil man ansonsten keine Chance hat, den Überblick zu bewahren“.

Besser wäre es nach seiner Meinung, wenn sich die technische Welt dem Menschen anpasst, individuell und komfortabel. „Intelligente Interaktion zwischen Mensch und System verlangt nach Identität, und zwar auf beiden Seiten. Das System muss wissen, wer ich bin, wenn es mir jene Informationen, Services oder Produkte zukommen lassen soll, die ich nachfrage. Und umgekehrt gilt ebenso: Der Einzelne muss wissen, welchem System er gegenübersteht, was dieses System kann oder nicht kann“, erläutert Weisshaupt.  Nach einer Erhebung des Statistischen Bundesamtes muss sich jeder Bundesbürger im Schnitt rund sechs so genannte Pins merken. Der Datenschutzbeauftragte der Bundesregierung sieht die Grenzen der Merkfähigkeit bereits erreicht. Im Extremfall werde die Geheimzahl sogar schon auf die EC-Karte geschrieben, damit man sie beim Abheben am Geldautomaten gleich zur Hand hat. „Mit der Einführung von weiteren Verfahren wie dem elektronischen Personalausweis, ELENA und der elektronischen Gesundheitskarte wird die Zahl der zu merkenden PINs und Passwörter noch steigen. Ich selbst halte eine PIN-Anzahl von zwölf pro Bundesbürger für nicht unrealistisch“, so Peter Schaar.

Lernende Systeme müssten automatisch den Einzelnen erkennen und ihm Routineabläufe abnehmen. Beispielsweise über einen Sender, der uns erlaubt, mit der Umgebung, mit einem System automatisch und sicher zu kommunizieren. Eine smarte Identifikationstechnologie sei nach Ansicht Innovationsexperten Weisshaupt der Schlüssel für die Zukunft. Ein wichtigen Beitrag könnte die Sprachbiometrie leisten – so genannte Voice Prints. „Noch vor wenigen Jahren war es aufgrund der Rechenkapazitäten und der Geschwindigkeit der Serverarchitekturen nicht möglich, große Voice Prints-Datenbestände, wie sie in Konsumentenanwendungen entstehen würden, in akzeptabler Zeit gegen eine Stimme abgleichen zu lassen. Mittlerweile ist die Zahl der Nutzer eines sprachbiometrischen Systems kein begrenzender Faktor mehr – Netzbandbreiten ebenso wie Prozessorgeschwindigkeiten und Rechenkapazitäten haben sich vervielfacht, während gleichzeitig die Modelle der Voice Prints so verfeinert werden konnten, dass auch zehntausende Nutzer die Rechenzentren nicht mehr in die Knie zwingen können“, erläutert Bernhard Steimel, Sprecher  der Voice Days

Das belege beispielsweise das sprachbiometrische Self Service-Portal der Volksfürsorge. „Noch größere Anrufvolumina bewältigt das derzeit weltgrößte System von Bell Canada. Es bedient alle interessierten Kunden der Festnetz-, Mobilfunk-, Internet-, TV- und VoIP-Sparten des Unternehmens. Der Anrufer muss lediglich den Satz ‚At Bell, my voice is my password’ zweimal wiederholen. Will er danach etwa seinen Kontostand abfragen, spricht er diesen Satz einmal ins Telefon und wird bei positiver Identifikation an den Agenten weitergeleitet, der auf seinem Bildschirm einen entsprechenden Vermerk sieht und dann die gewünschten Informationen weitergibt“, sagt Steimel. Das komme bei den Kunden gut an. „Über 16.000 Anmeldungen pro Woche summieren sich zu einer Nutzerbasis von über 300.000 registrierten Teilnehmern. Das beweist, wie man Sprachbiometrie für den Massenmarkt nutzen kann“, betont Steimel. Sprachbiometrische Systeme seien ortsunabhängig und bieten unterwegs, zu Hause oder  beim Kunden. Die Präsenz des Kunden an einem Sensor sei im Gegensatz zu anderen Biometriesystemen nicht erforderlich. „Die Sensorik, die erforderlich ist, um sprachbiometrische Dienste anbieten zu können, ist im Gegensatz zu anderen Technologien überall verfügbar: Statt eines Fingerabdrucksensors oder einer Kamera für die Gesichts- oder Iriskontrolle braucht man für Sprachbiometrie nur ein Mikrofon, wie es in fast jedem Telefon eingebaut ist“, führt Steimel aus. Einen entscheidenden Vorteil würden allerdings alle biometrischen Verfahren aufweisen: „Während Ausweise oder Passwörter vergessen, gestohlen oder gefälscht werden können, sind Fingerabdruck, Iris, Gesicht oder Stimme untrennbar mit der Person verbunden“, resümiert Steimel.

Beim Fachkongress Voice Days vom 15 bis 16. Oktober in Wiesbaden werden in einem Intensivworkshop biometrische Verfahren im Kundenservice erörtert. Experten: Wolfgang Fröhlich von Nuance, Frank Grefrath vom Bundesamt für Sicherheit in der Informationstechnik, Dr. Waldemar Grudzien vom Bundesverband deutscher Banken, Christel Müller, Beraterin und Autorin des Buches „Einführung von Sprachtechnologie“, Christian Pereira von D+S solutions und René Zühlke von der Postbank.

MP3-Erfinder prognostiziert Fernsehen zum Riechen, Tasten und Schmecken

Medien werden in Zukunft alle Sinne ansprechen. Das prognostiziert MP3-Erfinder Professor Karlheinz Brandenburg im Interview mit dem Web-TV-Sender von forward2business in Halle. „Es wird in Zukunft eine Umgebung geben, die einen fesselt und einfängt indem sie alle Sinne anspricht.“  Mit ihr könne der Nutzer aber auch interagieren, so es gewünscht sei.  Brandenburg ist Leiter des Fraunhofer-Instituts für Digitale Medientechnologie http://www.idmt.fraunhofer.de in Ilmenau (Thüringen) und beschäftigt sich mit Audio- und Videotechnologien der Zukunft. „Im Audiobereich gibt es erste Produkte, die diese Vision verwirklichen“, sagt Brandenburg..  Die natürlichen und isothetischen Welten werden seiner Meinung nach immer mehr verschwimmen. Darum werden Informationen schon bald an jedem beliebigen Ort in passender Qualität zu bekommen sein.

Zukunftschancen hat nach seinen Prognosen auch die Sprachtechnologie. „An vielen Stellen ist sie schon da und die Leute haben es bloß noch nicht so bewusst wahrgenommen. Also ich gehöre zu den Leuten, die das ganz simpel arbeitende Wordspotting zur Sprachwahl im Handy ganz regelmäßig nutzt. Ich finde es sehr nützlich, wenn ich dem Handy sage, wen ich sprechen will“, so Brandenburg, der seine Thesen als Hauptredner des Branchenkongresses Voice Days http://www.voicedays.de zum Thema „Wie Innovationen Märkte machen“ im Oktober darlegen wird.

Alle diese Technologien würden nach seiner Erfahrung einen mühsamen und langsamen Verbesserungsprozess zurücklegen. „Ich habe schon vor langer Zeit, als ich bei Bell Labs damals gearbeitet habe und sozusagen direkt neben den Leuten saß, die Spracherkennung gebaut haben, von Hidden Markow-Modells gehört und diesen Dingen. Damals wurde schon gelästert, die Spracherkennung ist der Bereich, der jedes Jahr die Erkennungsgenauigkeit von 94 auf 97 Prozent steigert. Das ist nicht wirklich anders geworden. Wenn das Wordspotting langsam unabhängiger wird von den Sprechern und damit das Training wegfällt, oder das Training so passiert, dass die Leute überhaupt nicht merken, dass sie die Geräte trainieren, und ähnliche Fortschritte, dann wird es einen Triggerpunkt geben, ab dem die große Verbreitung einsetzt, obwohl es vorher den Eindruck gab, als würde das nur ganz mühsam vorankommen“, so Brandenburg gegenüber dem Fachdienst Voice Community http://www.voice-community.de

Parallelen erkennt er beim hochauflösenden Fernsehen. „Da habe ich die erste Demo im Jahre 1990 gesehen und war begeistert. Wenn das zu günstigen Kosten geht, dann wollen das alle, da war ich sicher. Heute sind wir den Durchbruch noch nicht geschafft. Es fehlen die Programme, nachdem es viele Geräte schon gibt, die das haben. Aber es wird kommen. Das ist auch so eine Stelle mit einem Triggerpunkt“, erklärt Brandenburg.

Ein anderes Beispiel sei die Frage der Bildkommunikation. Früher habe man nur Geräte eingesetzt, die teuer waren und nicht viel an Qualität geliefert haben. „Heute habe ich einfach immer mehr Bildschirme und Laptops, die automatisch die Kamera mit drin haben, und Handys, die die Kamera mit drin haben. Und bei Skype ist es mittlerweile eine ganz simple Funktion, zu sagen, ich will den anderen auch sehen. Ich denke, wir werden in den nächsten zwei, drei Jahren feststellen, dass das Stückchen um Stückchen mehr verwendet wird. Ob das, wie mal die Science Fiction-Vorhersagen waren, der Normalfall wird beim Telefonieren, kann man noch nicht beantworten“, resümiert Brandenburg. Kritisch beurteilt er das Innovationsklima in Deutschland. Es sei zwar leichter geworden, Innovationen zur Marktreife zu bringen. „Aber nach wie vor ist es bei uns schwierig, dass nötige Wagniskapital aufzubringen. In den USA gibt es zehnmal so viel“, resümiert Brandenburg.

Schulklassen können Mensch-Maschine-Kommunikation testen

Der beliebte Spielzeugroboter Mindstorms von Lego bewegt sich und kann über Sensoren seine Umgebung wahrnehmen. Wissenschaftler der Universität des Saarlandes haben ihm auch das Sprechen beigebracht und dafür ein einfach zu bedienendes Sprachdialogsystem entwickelt, das sich besonders für den Schulunterricht eignet. Für die Verständigung mit dem Roboter sorgt das System DialogOS von der Firma CLT Sprachtechnologie, einer Ausgründung des Computerlinguisten Professor Manfred Pinkal von der Universität des Saarlandes. Die Software mit grafischer Benutzeroberfläche ist für den Unterricht auch an Unis konzipiert und unterstützt Lego Mindstorms sowie andere vergleichbare Bausätze – Programmierkenntnisse werden nicht vorausgesetzt. In kurzer Zeit können kleine Dialoge gestaltet werden, um dem Roboter Anweisungen zu geben oder mit ihm die nächste Aktion auszuhandeln. Die Schnittstelle zum NXT-Stein, dem „Gehirn“ des Roboters, macht es möglich, dass Sprachkommandos direkt in Bewegungsprogramme umgesetzt werden.

So berichtet der Roboter, was er über seine Sensoren sieht oder fühlt. Er fragt dann nach Informationen, die er für seine nächsten Aktionen braucht. Die integrierte Spracherkennung und Sprachausgabe machen es möglich, den Dialog in einer natürlichen Gesprächssituation direkt auszuprobieren: „Das ist ein wichtiges Kriterium für die Akzeptanz von automatischen Sprachsystemen. Der Mensch sollte mit seiner Alltagssprache komplexe Geräte steuern können. Häufig ist das aber nicht der Fall. Da muss man sich den Restriktionen der Maschine anpassen und das führt schnell zu Frustrationen“, weiß Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Mit dem Lego-Roboter bestehe die Möglichkeit, spielerisch die Anwendungsmöglichkeiten von Sprachdialogsystemen zu testen. „Nur so kann man Ängste und Hemmungen bei der Mensch-Maschine-Interaktion abbauen. Das Projekt sollte bundesweit in allen Schulen zum Einsatz kommen“, fordert Sprachdialogexperte Pape. Der Einsatz von Lego-Baukästen im Informatikstudium und im Schulunterricht ist auch nach Ansicht von Bernhard Steimel, Sprecher der Voice Days, eine phantastische Möglichkeit, um Sprachtechnik in Produkten des Alltags verstärkt einzusetzen.

„Wer heute ein Videogerät, Handy oder einen Fotoapparat kauft, muss sich erst umständlich durch Menüs und Bedienungsanleitungen kämpfen. Besser wäre es, wenn man dem neuen Gerät einfach sagen könnte, was man von ihm will und zwar so, wie man mit einem anderen Menschen reden würde“, so Steimel.

Den Stand der Technik und die Zukunft der automatischen Sprachdialogsysteme dokumentiert der Fachkongress „Voice Days“, der in diesem Jahr in Wiesbaden stattfindet.

Alle Schulklassen, die sich für das Thema „Mensch-Maschine-Kommunikation“ interessieren, können kostenlos die Fachausstellung der „Voice Days“ vom 15. bis 16. Oktober 2008 in den Rhein-Main-Hallen in Wiesbaden besuchen: „Wir bieten für Schüler und Lehrer spezielle Führungen, um zu erfahren, wie man ‚Dirigent’ der Mensch-Maschine-Kommunikation wird. So muss ein professioneller Sprachdialoggestalter Kenntnisse über Musik, Töne und Stimmen mitbringen, um sie als akustische Wegweiser einzusetzen. Wir zeigen den Nachwuchskräften, wie wichtig die Ingenieurwissenschaften und die Forschung für Künstliche Intelligenz sind, um Technik für Menschen leichter benutzbar zu machen: Behindertengerechte Fahrkartenautomaten, Navigationsgeräte ohne Tasteneingabe, Service-Roboter in der Altenpflege oder die Entwicklung von virtuellen persönlichen Assistenten. Experten des Fraunhofer-Instituts, des Deutschen Forschungszentrums für Künstliche Intelligenz und Vertreter der wichtigsten Technologiefirmen unserer Branche stehen den Schülern als Ansprechpartner zur Verfügung“, so Steimel.

Mit Spracherkennung Politikern auf den Zahn fühlen – Neue Google-Suchfunktion „Elections Video Search“ soll amerikanischen Wahlkampf transparenter machen

Wer kennt das nicht: Gerade zu Wahlkampfzeiten verlieren sich Politiker in ihren Reden oftmals in Floskeln, Endlosschleifen und rhetorischen Leerformeln – die wichtigen Informationen werden darunter verschüttet.. Um dem zu entgehen, bietet Google eine neue Suchfunktion an. Google Elections Video Search wandelt die Reden der Politiker in Texte um und synchronisiert sie mit den Videos auf YouTube. Der Zuschauer muss sich nicht mühevoll die langatmigen Reden ansehen, sondern kann den Politikern gezielt auf den Zahn fühlen, indem er über Suchbegriffe die Rede eingrenzt. Die gewünschten Teilbereiche werden gelb markiert, vorspulen wird somit kinderleicht. Parallel zum gesprochenen Wort werden zudem die Texte eingeblendet.

 

Möglich wird diese Suchfunktion durch die so genannte Speech-to-Text-Technologie. Dafür wandelt ein Algorithmus jedes gesprochene Wort in Text um. Eine bislang nicht fehlerfreie Anwendung, wie die Google-Produktmanager Arnaud Sahuguet und Ari Bezman im Unternehmensblog http://googleblog.blogspot.com/2008/07/in-their-own-words-political-videos.html bestätigen: „Spracherkennung ist ein schwieriges Problem, das noch nicht vollständig gelöst ist. Wir arbeiten jedoch ständig daran, die Genauigkeit der Algorithmen und die Transkriptionsresultate zu verbessern“, führen die beiden Manager aus.

 

Bis dahin könne es vorkommen, dass einzelne Wörter oder Phrasen nicht richtig erkannt werden und Kauderwelsch auf dem Monitor erscheint. „Die menschliche Sprache ist einfach ein unglaublich komplexes System. Sobald man sie analysiert und nachzubilden versucht, offenbart sich eine Unzahl von Tücken. Allein die Koartikulation bringt Algorithmen leicht ins Schleudern. Darunter versteht man das Phänomen, dass Laute und Worte immer etwas anders ausgesprochen werden, je nachdem in welcher lautlichen Nachbarschaft sie vorkommen. Der gleiche Laut und das gleiche Wort existieren also in zahlreichen Aussprachevarianten“, erklärt Bernhard Steimel, Sprecher der Voice Days http://www.voicedays.de.

 

Bei einem geschätzten englischen Wortschatz von 600.000 bis 800.000 Wörtern, so der Duden http://www.duden.de, muss der Computer demnach mit einer fast unüberschaubar großen Menge an sprachlichem Input umgehen können. „Noch komplizierter wird es bei verschiedenen Rednern, wenn sich der Algorithmus den Eigenheiten des Sprachapparates des jeweiligen Sprechers anpassen muss“, so Steimel weiter. „Die Tage der ersten Generation der so genannten ‚Sprachcomputer’ sind glücklicherweise gezählt. Die Technologie ist inzwischen reif für Sprachdialoge, die die Erwartungen des Menschen besser verstehen. Gestützt auf eine neue Technologie-Generation entwickeln wir modulare, natürlich-sprachliche Dialogsysteme, die den Nutzer als Dialogpartner betrachten und natürlich-sprachliche Dialoge in höchster Qualität ermöglichen“, sagt Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

 

Die Produktmanager von Google wollen mit Google Elections Video Search nicht nur die Transparenz des US-Wahlkampfes erhöhen, sie erhoffen sich auch mehr Informationen darüber, wie Anwender mit Videos und eingebundenen Sprachapplikationen umgehen. „Auch wenn die transkribierten Texte noch nicht zu 100 Prozent genau sind, hoffen wir, dass die Suchfunktion für die Anwender nützlich ist“, so Sahuguet und Bezman.