Sprachsteuerung: Google macht das iPhone zum Super-Handy

Im Februar 2008 hatte ich schon darüber berichtet, wie die Sprachdialogszene am Super-Handy bastelt: Fortschrittliche Mensch-Maschine-Schnittstellen wie Spracherkennung oder Gestensteuerung könnten aus dem Handy eine Steuerzentrale für Online-Inhalte machen und neue Geschäftsmodelle eröffnen: Sprachdialogsysteme sind nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und Maus tun und das ganze jederzeit und von jedem Ort aus”, erklärt Sprachdialogexperte Pape zum Start der Call Center Worldhttp://www.callcenterworld.de in Berlin. Seit Freitag wissen wir, dass das keine Hirngespinste sind. Google bringt die Sprachsteuerungstechnik auf das iPhone. 

Nutzer der frei abrufbaren Anwendung müssen nur das Telefon an ihr Ohr halten und können dann praktisch jegliche Art von Fragen stellen, wie beispielsweise „Wo finde ich den nächst gelegenen Starbucks?“ oder „Wie hoch ist der Mount Everest?“ Der Sprachlaut wird dann in eine digitale Datei konvertiert, die anschließend an die Server von Google weiter geleitet wird. Dort werden die gesprochenen Worte ermittelt, die im Anschluss daran an die Google Suchmaschine gehen. 

Die Ergebnisse dieser Suche, die in nur wenigen Sekunden auf einem schnell arbeitenden drahtlosen Netzwerk angezeigt werden können, schließen zum Teil lokale Informationen mit ein. Dabei macht man sich die Funktionalitäten des iPhones zu Nutze, über die man den konkreten Standort bestimmen kann.

Die Fähigkeit, fast jeden gesprochenen Satz von einer x-beliebigen Person identifizieren zu können, war lange Zeit das höchste Ziel der Forscher für Künstlichen Intelligenz. Ihr Bestreben galt dabei besonders dem Erforschen von Methoden, die bewirken sollen, dass die Interaktionen zwischen Mensch und Maschine zu einer Selbstverständlichkeit werden. Systeme, die mit einer solchen Fähigkeit ausgestattet sind, haben kürzlich damit begonnen, als kommerzielle Produkte die Märkte zu erobern.

Sowohl Yahoo als auch Microsoft bieten bereits Sprachdienstleistungen für Handys an. So gibt der Microsoft Tellme Service Informationen nach speziellen Kategorien, wie beispielsweise Anfahrts- und Wegbeschreibungen, Landkarten und Spielfilme wieder. Das Yahoo oneSearch System mit Spracherkennung ist im Vergleich dazu flexibler, dafür scheint es aber nicht so akkurat zu funktionieren wie das Angebot von Google. Das Google-System ist noch lange nicht perfekt und sendet beispielsweise Anfragen zurück, die wie Kauderwelsch klingen. Das Management von Google hat sich bisher zurückgehalten, Schätzungen bekannt zu geben, die besagen, wie oft der Service korrekt funktioniert. Die Verantwortlichen sagten nur, dass sie der Meinung seien, dass der Service zumindest akkurat genug ist, um den Nutzern den großen Vorteil zu bieten, nicht mehr wie bisher ihre Anfragen auf der Touchbildschirm-Tastatur ihres iPhones eintippen zu müssen.

Der Service kann genutzt werden, um Restaurant-Empfehlungen und Anfahrtsbeschreibungen zu erhalten, oder aber um Kontaktadressen aus dem iPhone Addressverzeichnis abzurufen. Genauso kann der Service dafür nützlich sein, Auseinandersetzungen in Bars zu bereinigen. Auf die Frage “Welches ist das beste Pizza-Restaurant in Noe Valley?“ würde der Service beispielsweise mit einer Liste mit drei Restaurants in der Nachbarschaft von San Francisco reagieren, jede einzelne mit Sterne-Kategorie-Beurteilungen von Google Nutzern und weiterführenden Links, durch die man Telefonnummern und Wegbeschreibungen anklicken kann.

Raj Reddy, ein Wissenschaftler der Künstlichen Intelligenz an der Carnegie Mellon University, der Pionierarbeit in der Spracherkennung geleistet hat, sagte, dass der Vorteil von Google sei, riesige Mengen an Daten zu speichern und zu analysieren. „Welches Produkt Google auch immer zum jetzigen Zeitpunkt auf den Markt bringt, wird schon in drei oder sechs Monaten signifikant an Fehlerfreiheit und Akkuratesse hinzu gewonnen haben“, erklärte Reddy.

Reddy fügte ferner hinzu: „Es ist wichtig zu verstehen, dass Spracherkennungssysteme nie richtig perfekt sein können. Die Frage sollte vielmehr lauten: bis zu welchem Punkt ist die Maschinenleistung in der Lage, sich der menschlichen Leistung zu nähern?“ Für Google ist die Technologie von entscheidender Bedeutung, um den nächsten Ansturm auf die Werbewelt vorzubereiten. Das Management von Google kommentierte dies mit der Aussage, dass man durch lokale Anfragen beispielsweise höhere Werbekostensätze von Unternehmen aus der Region verlangen könnte, obgleich der Verkauf einer solchen Werbeform bisher nicht Bestandteil ihres Portfolios sei.

Wie auch bei den übrigen Produkten Googles ist dieser Service für die Nutzer frei verfügbar. Außerdem plant das Unternehmen, den Service später auch anderen Telefonsystemen zur Verfügung zu stellen.

„Durch die Aspekte ‚Standort‘ und ‚Sprache‘ erhöhen wir gegenüber den Werbeträgern den Service-Nutzen auf dramatische Weise,” erklärte Vic Gundotra, ein ehemaliger leitender Angestellter von Microsoft, der nun das Mobile-Business bei Google leitet.

Dabei ist Google keinesfalls das einzige Unternehmen, das daran arbeitet, zukunftsweisende Spracherkennungs-Ressourcen zu erschließen. Eine so genannte Spracherwiderungstechnologie kommt schon heute regelmäßig bei telefonischen Anrufbeantwortersystemen und anderen Verbraucherdienstleistungen und -produkten zum Einsatz. Allerdings haben diese Systeme oft Schwierigkeiten mit der Komplexität von Dialogen. Außerdem offerieren sie in der Regel nur ein eingeschränktes Repertoire an Antworten auf die eingehenden Anfragen.

Vor einigen Wochen hatte Adobe seiner Creative Suite Software die von dem britischen Unternehmen Autonomy entwickelte Spracherkennungstechnologie hinzugefügt. Dadurch wurde die Möglichkeit geschaffen, Videokopien und Audio-Aufzeichnungen mit einem hohen Grad an Genauigkeit zu erstellen.

Gundotra wies darauf hin, dass Google es geschafft hätte, das doppelte Problem der Informationseingabe und der Informationsabfrage für mobile Endgeräte erfolgreich zu lösen.

„Diese zwei zusammenhängenden Probleme auf Weltklasse-Niveau zu lösen, ist unser oberstes Ziel“, erklärte Gundotra.

Die neue iPhone Suchmöglichkeit ist nicht das erste Sprach-basierte Angebot von Google. Schon im März hatte das Unternehmen verlauten lassen, dass das GOOG-411, ein experimenteller Auskunftsdienst, bereits zu einem reellen Produkt herangereift sei. Der Service eröffnet Nutzern die Möglichkeit, Geschäfts-Telefonnummern und Adressinformationen abzufragen. Google sagte, dass es sich die Erfahrungswerte und Dateninformationen, die es durch das GOOG-411 gewinnen konnte, für die Entwicklung des iPhone Services zu Nutze gemacht hätte.

Die neue Dienstleistung ist ein gutes Beispiel dafür, wie Google es schafft, elementare Informatik-Forschung mit Produkttechnik zu verbinden. Um dies zu erreichen hat das Unternehmen einige der besten Spracherkennungs-Forscher der Welt engagiert. Die Teams in New York, London und dem Hauptsitz in Mountain View bearbeiten die Problematik aus unterschiedlichen Blickwinkeln.

Ein verblüffender Teil des Gesamtdesigns der Dienstleistung wurde von einem Google-Researcher aus London beigesteuert, der eine Möglichkeit entdeckte, wie man den iPhone Akzelerometer nutzen kann — das Gerät, das per Sensortechnik erkennt, wie das Telefon gehalten wird. Die Researcher von Google erklärten, dass ein weiterer Vorteil gegenüber der Konkurrenz in der Tatsache bestehen würde, dass die Verbraucher in den vergangenen Jahren bereits Milliarden von Anfragen bei Google getätigt hätten, was allein schon für eine große Erfahrungskompetenz spräche.

„Eine Sache, die sich geändert hat, ist die heute verfügbare Berechnungsgröße und die Datenmenge“, erklärt der Sprachforscher Mike Cohen, der bevor er zu Google kam, als Mitbegründer bei Nuance Communications tätig war. Cohen empfahl darüber hinaus, dass frühere Anfragen dazu genutzt werden könnten, ein statistisches Modell zu erstellen, das demonstriert, auf welche Art und Weise Wörter häufig in einer aneinander gereihten Form auftreten. Dies ist nur eine der vielen Komponenten des Spracherkennungssystems, zu dem außerdem ein Sprachlaut-Analyse-Modell zählt ebenso wie ein Mechanismus, der es ermöglicht, die elementaren Sprachkomponenten mit tatsächlichen Wörtern zu verknüpfen.

Google hat vor kurzem ein technisches Dokument über die Entwicklung von umfangreichen Modellen zur maschinellen Übersetzung der Sprache veröffentlicht. Die Forscher schrieben dazu, dass sie das System an zwei Billionen „Informationsmerkmalen“ oder Wörtern erprobt hätten.

Hier die Demonstration des Dienstes auf Youtube: http://de.youtube.com/watch?v=GQ3Glr5Ff28


 

Hackerszene treibt iPhone-Entwicklung voran: Experten rechnen mit neuer Mobilfunkstrategie von Apple – Providerbindung schränkt Verkaufserfolg ein

Nach Spekulationen von Ezra Gottheil, Analyst bei Technology Business Research http://www.tbri.com, werde Apple sein Geschäftsmodell für das iPhone aufgeben und die Telefone auch ohne Providerbindung verkaufen. Damit hätte sich auch die Umsatzbeteiligung erledigt, die Apple mit seinen exklusiven Partnern vereinbart hat. Gottheil schließt aus Apples Zuversicht, in diesem Jahr zehn Millionen iPhones zu verkaufen, auf ein ungebundenes Handy. Bislang seien die Verkaufszahlen enttäuschend. Die britische „Times“ berichtete, dass die europäischen Anbieter große Verluste mit dem Apple-Handy machen würden. Die Handyprovider hätten sich gründlich verkalkuliert. So sei man davon ausgegangen, im vergangenen Jahr etwa 500.000 bis 600.000 iPhones in Europa absetzen zu können. Gerade einmal 330.000 Exemplare gingen bis Dezember über die Ladentheken.

 

Die Providerbindung war nach Expertenmeinung von Anfang an ein Fehler. Sie würde nicht der Kundenphilosophie des Steve Jobs-Kozerns entsprechen und wirke sich kontraproduktiv für das Image aus. Apple könnte über Business Process Outsourcing-Verträge das iPhone als eigene Mobilfunkmarke etablieren – als virtueller Netzbetreiber (MVNO). Stattdessen mache man den Kauf des mobilen Endgerätes vom Wechsel des Netzbetreibers abhängig. „Apple könnte als MVNO sogar weltweit auf Outsourcing-Modelle setzen und völlig frei am Markt agieren“, empfiehlt Omar Khorshed, Vorstandschef des Dienstleisters acoreus http://www.acoreus.de in Düsseldorf.

 

Apple habe mit seinen „iProducts“ die Endkundenmärkte kräftig in Bewegung gebracht, weil sie perfekt den „iCustomer“ adressieren. „Der Kunde, der seine Konsumgüterprodukte danach auswählt, wie sie sich in seinen persönlichen Lebensstil einpassen, steht im Fadenkreuz der Produktentwickler von Apple. Wenn Apple nun seinen Kunden abverlangt, seine Produkte nur mit bestimmten Infrastrukturanbietern zu nutzen – ist das nichts als ein Schlag ins Gesicht der Kundschaft, die ja gerade Apple wählt, um ihre individuellen Bedürfnisse zu befriedigen“, kritisiert Bernhard Steimel, Sprecher der Voice Days http://www.voicedays.de  und Co-Autor der Studie „Praxisleitfaden Mobile Marketing“ http://www.absatzwirtschaft.de/mobile-marketing.

 

Die Providerbindung führte mit einem Marktanteil von 10 bis 15 Prozent zu einem florierenden Graumarkt. Besonders die Hackerszene, für die das iPhone als vollwertige Linux-Maschine geradezu ein „must have” darstellt, sah die Providerbindung als Herausforderung an. So wurden die „Hacks” für die freie Verwendung des iPhones schneller veröffentlicht, als die meisten Nutzer das neue Update auf ihr „legales” Gerät herunterladen konnten. Der Graumarkt hat nicht nur negative Effekte, meint der Mobilfunkexperte Steimel: „Die Hackerszene treibt die Entwicklung von Anwendungen für das iPhone voran: Erst ein lebendiges Ecosystem aus einer Fülle von Anwendungen für Geschäfts- und Privatkunden schafft die Basis für Umsätze mit iPhone-Software und könnte so erfolgreich werden wie iTunes.“ Insgesamt sei die Providerbindung falsch, weil Apple künstlich den adressierbaren Markt einschränkt.

 

„Die Providerbindung hat Apple mehr geschadet, als die Umsatzanteile dem Giganten aus Cuperino kurzfristig beschert haben: Denn viele potenzielle Kunden und Multiplikatoren können aufgrund ihrer Vertragslage mit einem anderen Provider nicht auf das iPhone wechseln, weil sie dann einen eventuell noch 22 Monate laufenden Vertrag weiterbezahlen müssen. Deutlich wird der Unsinn, wenn man das Modell auf das MacBookPro überträgt. Die Arbeitsmaschine vieler Kreativer wäre doch vermutlich so unverkäuflich wie ein alter Gummistiefel, dürfte man sie nur mit einem DSL-Vertrag eines speziellen TK-Anbieters nutzen“, so der Einwand von Jens Klemann, Geschäftsführer der Bad Homburger Unternehmensberatung Strateco http://www.strateco.de.

 

Apple sollte als virtueller Mobilfunkanbieter mit einem eigenen Mobilfunktarif kostengünstige iTunes-Downloads ermöglichen.Man darf davon ausgehen, dass die Kalifornier bereits intensiv darüber nachdenken, als MVNO mit attraktiven Tarifen an den Markt zu gehen“, spekuliert Klemann. Vor allen Dingen in einer Kopplung mit einem großen Hot-Spot-Anbieter für WLAN würde die Apple-Welt noch stimmiger und nahtloser. Apple käme zudem in den Besitz der Kundendaten und Userprofile, die für die Weiterentwicklung der Produkte und Dienste von höchstem Wert sind.

Bewerbungen über iPhone: Internet als Karrieresprungbrett

Das Web 2.0 hat ein neues Bewerbungszeitalter eingeläutet. Business-Netzwerke machen herkömmliche Formen der Bewerbung mehr und mehr überflüssig. Harvey Nash http://www.harveynash.com/de ist nach eigenen Angaben der erste Personaldienstleister mit eigener i-Suite für das iPhone. „Kandidaten und Kunden können sich über alle Schnittstellen zu offenen Positionen und dem Status ihrer Bewerbungen für das iPhone updaten“, erläutert Michael Zondler, Sales Director bei Harvey Nash. „Unsere Kunden können später dadurch den Status des Harvey Nash Recruiting für ihre offenen Positionen in real time und überall abrufen.“

Harvey Nash stelle Interessenten RSS Feeds zur Verfügung, gespeist aus eigenen Blogs und Internetseiten http://www.harveynash.com/group/rss_feeds/index.asp. „Alle unsere Mitarbeiter verfügen außerdem über einen XING Premium Account“, erläutert Zondler und verweist auf sein eigenes Profil https://www.xing.com/profile/Michael_Zondler.

Besonders XING nimmt im Bewerbungsprozess eine immer größere Rolle ein, bestätigen auch Karriereberater wie die Autorin Svenja Hofert. Sie zeigt in ihrem Buch „Jobsuche und Bewerbung im Web 2.0“ auf, wie Arbeitnehmer das Internet als Karrieresprungbrett nutzen können. Doch auch Arbeitgeber müssen stärker auf das Internet setzen. „Viele Firmen sind leider immer noch zu zögerlich, die neuen Medien für die eigene Darstellung und den Imageaufbau des Unternehmens zu nutzen. Wir agieren wesentlich offensiver. So betreiben wir unter anderem das Mobilfunk-Forum in XING unter https://www.xing.com/net/mobilfunk/“, betont Zondler. Auch Second Life werde mit einer eigenen Präsenz genutzt. Hier könnten sich Bewerber und Kunden virtuell zusammenfinden, aber auch Analystenkonferenzen werden dort durchgeführt.

Super-Handy wird zur Fernsteuerung für Online-Inhalte – Persönliche Assistenzsysteme ersetzen Telefonnummer und Internetadresse

Fortschrittliche Mensch-Maschine-Schnittstellen wie Spracherkennung oder Gestensteuerung könnten aus dem Handy eine Steuerzentrale für Online-Inhalte machen und neue Geschäftsmodelle eröffnen: Sprachdialogsysteme sind nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und Maus tun und das ganze jederzeit und von jedem Ort aus“, erklärt Sprachdialogexperte Pape zum Start der Call Center World http://www.callcenterworld.de in Berlin.
 
Die Spracherkennung im personalisierten Diktiermodus sei schon sehr ausgereift, die mobilen Datenzugriffe werden immer schneller und auch Flatrates im Mobilfunk werden vermutlich bald genauso verbreitet sein wie im DSL-Geschäft. Viele Informationen würden bereits strukturiert vorliegen, wie Fahrplaninformationen, Telefonnummern, Sportergebnisse, bewertete Restaurants und sonstige Adressen. „Was fehlt, ist eine Art Yahoo des ‚Voicewebs‘, über das sich jeder personalisiert seine gewünschten Angebote zusammenstellen und über Sprache oder Multimodale Interfaces abfragen kann“, sagt Pape.  Die neue Generation mobiler Endgeräte führe zu hohen Qualitätsanforderungen an die Nutzerschnittstelle. „Natürlich-sprachliche Interfaces gekoppelt mit graphischen Displays sind die effizienteste und natürlichste Schnittstelle für den Zugriff auf Informationen, für die Durchführung von Transaktionen und für die Steuerung von Geräten. Die Telefonnummer und die Internetadresse verschwinden. An deren Stelle tritt ein persönlicher Assistent, der über Sprachsteuerung die Wünsche des Nutzers versteht und auch sofort umsetzt“, prognostiziert Pape.  „Verbinde mich mit Louis“; „Wo ist das nächste Starbucks-Cafe“; „Wann fährt der nächste Zug nach Berlin“; „Spiel mir Amy Winehouse Tears Dry on their own“; „Ich brauche noch Butter“; „Wirtschaftnachrichten bitte“. Sieht man sich die Trends an, die derzeitig in den Netzwerken, den mobilen Endgeräten, dem semantisch aufbereiteten Internet-Content und der Sprachtechnologie zusammenkommen, dann könnte diese Vision bald Realität werden.

Der iPhone-Schock – Gerätehersteller auf der Suche nach dem „Super-Handy“

Das iPhone hat nach einem Bericht der FAZ die etablierten Handyhersteller herausgefordert und ihnen wohl einen gehörigen Schrecken eingejagt. „Während der Mobilfunkmesse Mobile World Congress im spanischen Barcelona übertrumpfen sich die Hersteller mit der Präsentation von Handys, die noch mehr Dienste und Anwendungen beherrschen als die schon sehr komplexen Mobiltelefone. Die Branche ist auf der ‚Suche nach dem Superhandy’, heißt es in Barcelona. Andere Analysten formulieren es schärfer und sprechen von der ‚Suche nach dem iPhone-Killer’“, schreibt die FAZ.  Nach Meinung des Branchenexperten Bernhard Steimel, Geschäftsführer des Düsseldorfer Beratungshauses Mind Business Consultants http://www.mind-consult.net und Sprecher der Voice Days http://www.voicedays.de, sollten die Hersteller die richtigen Schlüsse ziehen aus der Apple-Strategie. „Komplexe Technik und Dienste müssen mit einem nutzerfreundlichen Interface ausgestattet sein.  Der wichtigste Impuls, der von der iPhone-Philosophie ausgeht, ist ein Paradigmenwechsel zu Endgeräten, die verstehen, was der Nutzer will“, sagt Steimel, der zum Mobile World Kongress in Kooperation mit der Unternehmensberatung Strateco http://www.strateco.de und der Fachzeitschrift absatzwirtschaft http://www.absatzwirtschaft.de eine Studie über Markttrends im Mobilfunkgeschäft veröffentlicht hat.

 

 

 

Die Sprachautomatisierung ist nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und der Maus tun und das ganze jederzeit und von jedem Ort aus“, erklärt Sprachdialogexperte Pape gegenüber dem Onlinemagazin NeueNachricht.

 

Die fehlenden Bausteine dafür seien jetzt schon verfügbar, so dass es nur eine Frage der Zeit sei, bis sich die Menschen weltweit an dieses neue Interface gewöhnt haben. „Die Spracherkennung im personalisierten Diktiermodus ist schon sehr ausgereift, die mobilen Datenzugriffe werden immer schneller und auch Flatrates im Mobilfunk werden vermutlich bald genauso verbreitet sein wie im DSL-Geschäft“, prognostiziert Pape.Viele Informationen würden bereits strukturiert vorliegen, wie Fahrplaninformationen, Telefonnummern, Sportergebnisse, bewertete Restaurants und sonstige Adressen. „Was fehlt, ist eine Art Yahoo des ‚Voicewebs‘, über das sich jeder personalisiert seine gewünschten Angebote zusammenstellen und über Sprache oder Multimodale Interfaces abfragen kann“, so Pape.