Sprachsteuerung: Google macht das iPhone zum Super-Handy

Im Februar 2008 hatte ich schon darüber berichtet, wie die Sprachdialogszene am Super-Handy bastelt: Fortschrittliche Mensch-Maschine-Schnittstellen wie Spracherkennung oder Gestensteuerung könnten aus dem Handy eine Steuerzentrale für Online-Inhalte machen und neue Geschäftsmodelle eröffnen: Sprachdialogsysteme sind nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und Maus tun und das ganze jederzeit und von jedem Ort aus”, erklärt Sprachdialogexperte Pape zum Start der Call Center Worldhttp://www.callcenterworld.de in Berlin. Seit Freitag wissen wir, dass das keine Hirngespinste sind. Google bringt die Sprachsteuerungstechnik auf das iPhone.

Nutzer der frei abrufbaren Anwendung müssen nur das Telefon an ihr Ohr halten und können dann praktisch jegliche Art von Fragen stellen, wie beispielsweise „Wo finde ich den nächst gelegenen Starbucks?“ oder „Wie hoch ist der Mount Everest?“ Der Sprachlaut wird dann in eine digitale Datei konvertiert, die anschließend an die Server von Google weiter geleitet wird. Dort werden die gesprochenen Worte ermittelt, die im Anschluss daran an die Google Suchmaschine gehen.

Die Ergebnisse dieser Suche, die in nur wenigen Sekunden auf einem schnell arbeitenden drahtlosen Netzwerk angezeigt werden können, schließen zum Teil lokale Informationen mit ein. Dabei macht man sich die Funktionalitäten des iPhones zu Nutze, über die man den konkreten Standort bestimmen kann.

Die Fähigkeit, fast jeden gesprochenen Satz von einer x-beliebigen Person identifizieren zu können, war lange Zeit das höchste Ziel der Forscher für Künstlichen Intelligenz. Ihr Bestreben galt dabei besonders dem Erforschen von Methoden, die bewirken sollen, dass die Interaktionen zwischen Mensch und Maschine zu einer Selbstverständlichkeit werden. Systeme, die mit einer solchen Fähigkeit ausgestattet sind, haben kürzlich damit begonnen, als kommerzielle Produkte die Märkte zu erobern.

Sowohl Yahoo als auch Microsoft bieten bereits Sprachdienstleistungen für Handys an. So gibt der Microsoft Tellme Service Informationen nach speziellen Kategorien, wie beispielsweise Anfahrts- und Wegbeschreibungen, Landkarten und Spielfilme wieder. Das Yahoo oneSearch System mit Spracherkennung ist im Vergleich dazu flexibler, dafür scheint es aber nicht so akkurat zu funktionieren wie das Angebot von Google. Das Google-System ist noch lange nicht perfekt und sendet beispielsweise Anfragen zurück, die wie Kauderwelsch klingen. Das Management von Google hat sich bisher zurückgehalten, Schätzungen bekannt zu geben, die besagen, wie oft der Service korrekt funktioniert. Die Verantwortlichen sagten nur, dass sie der Meinung seien, dass der Service zumindest akkurat genug ist, um den Nutzern den großen Vorteil zu bieten, nicht mehr wie bisher ihre Anfragen auf der Touchbildschirm-Tastatur ihres iPhones eintippen zu müssen.

Der Service kann genutzt werden, um Restaurant-Empfehlungen und Anfahrtsbeschreibungen zu erhalten, oder aber um Kontaktadressen aus dem iPhone Addressverzeichnis abzurufen. Genauso kann der Service dafür nützlich sein, Auseinandersetzungen in Bars zu bereinigen. Auf die Frage “Welches ist das beste Pizza-Restaurant in Noe Valley?“ würde der Service beispielsweise mit einer Liste mit drei Restaurants in der Nachbarschaft von San Francisco reagieren, jede einzelne mit Sterne-Kategorie-Beurteilungen von Google Nutzern und weiterführenden Links, durch die man Telefonnummern und Wegbeschreibungen anklicken kann.

Raj Reddy, ein Wissenschaftler der Künstlichen Intelligenz an der Carnegie Mellon University, der Pionierarbeit in der Spracherkennung geleistet hat, sagte, dass der Vorteil von Google sei, riesige Mengen an Daten zu speichern und zu analysieren. „Welches Produkt Google auch immer zum jetzigen Zeitpunkt auf den Markt bringt, wird schon in drei oder sechs Monaten signifikant an Fehlerfreiheit und Akkuratesse hinzu gewonnen haben“, erklärte Reddy.

Reddy fügte ferner hinzu: „Es ist wichtig zu verstehen, dass Spracherkennungssysteme nie richtig perfekt sein können. Die Frage sollte vielmehr lauten: bis zu welchem Punkt ist die Maschinenleistung in der Lage, sich der menschlichen Leistung zu nähern?“ Für Google ist die Technologie von entscheidender Bedeutung, um den nächsten Ansturm auf die Werbewelt vorzubereiten. Das Management von Google kommentierte dies mit der Aussage, dass man durch lokale Anfragen beispielsweise höhere Werbekostensätze von Unternehmen aus der Region verlangen könnte, obgleich der Verkauf einer solchen Werbeform bisher nicht Bestandteil ihres Portfolios sei.

Wie auch bei den übrigen Produkten Googles ist dieser Service für die Nutzer frei verfügbar. Außerdem plant das Unternehmen, den Service später auch anderen Telefonsystemen zur Verfügung zu stellen.

„Durch die Aspekte ‚Standort‘ und ‚Sprache‘ erhöhen wir gegenüber den Werbeträgern den Service-Nutzen auf dramatische Weise,” erklärte Vic Gundotra, ein ehemaliger leitender Angestellter von Microsoft, der nun das Mobile-Business bei Google leitet.

Dabei ist Google keinesfalls das einzige Unternehmen, das daran arbeitet, zukunftsweisende Spracherkennungs-Ressourcen zu erschließen. Eine so genannte Spracherwiderungstechnologie kommt schon heute regelmäßig bei telefonischen Anrufbeantwortersystemen und anderen Verbraucherdienstleistungen und -produkten zum Einsatz. Allerdings haben diese Systeme oft Schwierigkeiten mit der Komplexität von Dialogen. Außerdem offerieren sie in der Regel nur ein eingeschränktes Repertoire an Antworten auf die eingehenden Anfragen.

Vor einigen Wochen hatte Adobe seiner Creative Suite Software die von dem britischen Unternehmen Autonomy entwickelte Spracherkennungstechnologie hinzugefügt. Dadurch wurde die Möglichkeit geschaffen, Videokopien und Audio-Aufzeichnungen mit einem hohen Grad an Genauigkeit zu erstellen.

Gundotra wies darauf hin, dass Google es geschafft hätte, das doppelte Problem der Informationseingabe und der Informationsabfrage für mobile Endgeräte erfolgreich zu lösen.

„Diese zwei zusammenhängenden Probleme auf Weltklasse-Niveau zu lösen, ist unser oberstes Ziel“, erklärte Gundotra.

Die neue iPhone Suchmöglichkeit ist nicht das erste Sprach-basierte Angebot von Google. Schon im März hatte das Unternehmen verlauten lassen, dass das GOOG-411, ein experimenteller Auskunftsdienst, bereits zu einem reellen Produkt herangereift sei. Der Service eröffnet Nutzern die Möglichkeit, Geschäfts-Telefonnummern und Adressinformationen abzufragen. Google sagte, dass es sich die Erfahrungswerte und Dateninformationen, die es durch das GOOG-411 gewinnen konnte, für die Entwicklung des iPhone Services zu Nutze gemacht hätte.

Die neue Dienstleistung ist ein gutes Beispiel dafür, wie Google es schafft, elementare Informatik-Forschung mit Produkttechnik zu verbinden. Um dies zu erreichen hat das Unternehmen einige der besten Spracherkennungs-Forscher der Welt engagiert. Die Teams in New York, London und dem Hauptsitz in Mountain View bearbeiten die Problematik aus unterschiedlichen Blickwinkeln.

Ein verblüffender Teil des Gesamtdesigns der Dienstleistung wurde von einem Google-Researcher aus London beigesteuert, der eine Möglichkeit entdeckte, wie man den iPhone Akzelerometer nutzen kann — das Gerät, das per Sensortechnik erkennt, wie das Telefon gehalten wird. Die Researcher von Google erklärten, dass ein weiterer Vorteil gegenüber der Konkurrenz in der Tatsache bestehen würde, dass die Verbraucher in den vergangenen Jahren bereits Milliarden von Anfragen bei Google getätigt hätten, was allein schon für eine große Erfahrungskompetenz spräche.

„Eine Sache, die sich geändert hat, ist die heute verfügbare Berechnungsgröße und die Datenmenge“, erklärt der Sprachforscher Mike Cohen, der bevor er zu Google kam, als Mitbegründer bei Nuance Communications tätig war. Cohen empfahl darüber hinaus, dass frühere Anfragen dazu genutzt werden könnten, ein statistisches Modell zu erstellen, das demonstriert, auf welche Art und Weise Wörter häufig in einer aneinander gereihten Form auftreten. Dies ist nur eine der vielen Komponenten des Spracherkennungssystems, zu dem außerdem ein Sprachlaut-Analyse-Modell zählt ebenso wie ein Mechanismus, der es ermöglicht, die elementaren Sprachkomponenten mit tatsächlichen Wörtern zu verknüpfen.

Google hat vor kurzem ein technisches Dokument über die Entwicklung von umfangreichen Modellen zur maschinellen Übersetzung der Sprache veröffentlicht. Die Forscher schrieben dazu, dass sie das System an zwei Billionen „Informationsmerkmalen“ oder Wörtern erprobt hätten.

Hier die Demonstration des Dienstes auf Youtube: http://de.youtube.com/watch?v=GQ3Glr5Ff28