Sprachsteuerung und elektronische Begleiter sollen Internetnutzung vereinfachen

IBM-Forscher Moshe Rappoport
IBM-Forscher Moshe Rappoport
Microsoft-Chef Steve Ballmer erwartet in den kommenden Jahren unglaubliche Dinge: Bildschirme, flexibel wie Papier, Computer, die sich mit Sprache oder Gesten steuern lassen und Software, die aus der Wolke kommt. Selbst in der prekären Wirtschaftslage werde das Tempo der technischen Entwicklung nicht verlangsamt. Ganz im Gegenteil. Zu dieser Einschätzung gelangte Ballmer auf einer Konferenz der Financial Times Deutschland in Köln.

Experten bestätigen, dass die Sprachsteuerung (nicht zu verwechseln mit den dämlichen Ansagen am Telefon „Drücken Sie 1, 2 oder 3 und warten dreitausend Jahre auf den Call Center-Agenten, der Ihnen auch nicht weiterhelfen kann) für das Surfen im Internet an Relevanz gewinnen wird. Davon sind auch die Forscher von IBM überzeugt. Die neue Technologie werde einen Veränderungsprozess einleiten und die Art und Weise beeinflussen, wie der Mensch mit Informationen und E-Commerce umgeht. „Wir wissen, dass das machbar ist, da uns bereits heute die erforderliche Technologie zur Verfügung steht, wir wissen aber auch, dass die Zeit dafür reif ist“, so IBM. In Ländern wie Indien, in denen das gesprochene Wort im Bildungswesen, in Regierungskreisen und in der Kultur eine größere Bedeutung habe als das geschriebene Wort, stellt das „Sprechen” mit dem Internet bereits alle anderen Kommunikationsschnittstellen in den Schatten.

„Gleiches geschieht bei Mobiltelefonen, die mittlerweile die PC-Anwendung übertrumpfen. Durch die Nutzung der ‚Voice Sites’ werden in Zukunft auch die Menschen ohne Zugang zu einem Computer oder Internet ebenso wie diejenigen, die weder schreiben noch lesen können, von den zahlreichen Vorteilen und Annehmlichkeiten des Internets profitieren“, betont IBM.

Eine Reduzierung der Komplexität im Netz und eine Demokratisierung des Internetzugangs erhoffen sich Computerexperten durch personalisierte, lernfähige und vertraute elektronische Begleiter. „Sie werden dann die lästigen ersten Schritte einer Identifizierung von relevanten Informationen mittels Machine-to-Machine-Kommunikation mit einzelnen Instanzen im ‚Internet der Dinge’ aushandeln“, so die Vision von Andreas Dippelhofer, Mitglied der Geschäftsführung des Düsseldorfer ITK-Dienstleisters acoreus.

Die Stimmen- und Gestenerkennung in der Google Mobile-Anwendung für das iPhone ist nach Ansicht des Sprachdialogexperten Lupo Pape schon ein vielversprechender Ansatz: „Es ist erst einmal eine Sprach- oder Diktiererkennung, die auf einer Suchmaschine und demnächst sogar auf weiteren Handyfunktionen aufsetzt. Sprachdialogsysteme werden es erst, wenn ein Wissen über die Domäne und Dialogintelligenz hinzukommen. Das ist das, was wir mit dem Personal Assistant umsetzen. Dazu müssen die Wissensgebiete semantisch aufbereitet und Dialogstrategien hinterlegt werden. Die wichtigsten Use-Cases gilt es zu modellieren“, erläutert SemanticEdge-Geschäftsführer Pape.

Einen Ausblick wagt auch Andreas Rebetzky, Sprecher des cioforums in Münchnen und CIO des Balinger Technologiespezialisten Bizerba: „In 20 bis 30 Jahren könnten beispielsweise vollständige Unternehmensinformationen auf winzigen Implantaten gespeichert werden. Sie könnten von unterschiedlichen Endgeräten ausgelesen werden, entweder von großen Touchscreens oder unterwegs per Sprachsteuerung über ein Armband mit Minidisplay.“

Intelligente Assistenten werden auch die Shopping-Welt verändern. „Dabei wird die symbiotische Verknüpfung einer neuen Technologie und einer neuen Generation von Mobilgeräten den Einkaufserfahrungen im Einzelhandel dramatische Impulse verleihen. So werden Ankleideräume bald mit digitalen Shopping-Assistenten ausgestattet sein – Touchscreens und sprachgesteuerte Kioske werden Kunden zudem die Möglichkeit eröffnen, Bekleidungsstücke und Accessoires auszuwählen als Ergänzung oder Ersatz für die bereits zusammen gestellte Garderobe“, führt IBM aus.

Die letzte Meile im Einzelhandel werde in einigen Jahren völlig anders aussehen. „Das klassische Ladengeschäft muss nicht mehr Teil des Distributionsnetzes sein. Als Konsument möchte ich nur die allernötigsten Artikel an Ort und Stelle mitnehmen. Was darüber hinausgeht, soll mir nach Hause gebracht werden. Statt weit zu fahren, damit ich zu einem großen Sortiment komme, werde ich zu einem Showroom gehen, wo man mir das ganze Sortiment zeigt – echt oder virtuell“, sagt Moshe Rappoport, IBM- Experte für Technologie- und Innovationstrends. Es müssten nicht mehr alle Artikel im Laden vorrätig sein. Es reiche vollkommen aus, alles zeigen zu können. Nicht mehr das Produkte steht im Vordergrund, sondern der Service. „Nehmen wir Kleider als Beispiel. Ich muss nicht alle Größen in allen Farben haben. Das kann ich in einem elektronischen Dressing-Room in allen Varianten ausprobieren und meine Kaufentscheidung treffen. Komme ich nach meiner Shopping-Tour wieder ins eigene Heim, wartet das Paket schon auf mich und ich kann die Kleidung anziehen“, so der Ausblick von Rappoport.

Pfannkuchenmenschen im Netz-Zeitalter: Das Denken wird breiter und flacher, glaubt Trendletter-Chefredakteur Axel Glogler

Der Soziologe Niklas Luhmann http://www.luhmann-online.de hat sich mit den kulturellen Umbrüchen beschäftigt, die von der Erfindung der Schrift, des Buchdrucks und der Computerkommunikation ausgegangen sind. Er stellt sie sich als „Katastrophen“ im mathematischen Sinne vor, als brutale Sprünge, die es einem System ermöglichen zu überleben, wenn es eigentlich aufhören müsste zu existieren. Mit der Computerkommunikation wird die Eingabe von Daten und das Abrufen von Informationen soweit getrennt, dass keinerlei Identität mehr besteht. Wer etwas eingibt, weiß nicht, was auf der anderen Seite entnommen wird. Die Autorität der Quelle wird entbehrlich, sie wird durch Technik annulliert. Ebenso entfällt die Möglichkeit, die Absicht einer Mitteilung zu erkennen und daraus Verdacht zu nähren oder sonstige Schlüsse zu ziehen, die zur Annahme oder Ablehnung der Kommunikation führen könnten. Die moderne Computertechnik greift nach Ansicht von Luhmann die Autorität der Experten an. Fast jeder hat mittlerweile die Möglichkeit, die Aussagen von Wissenschaftlern, Journalisten, Unternehmern oder Politikern am eigenen Computer zu überprüfen.

Die neuen Medien beeinflussen auch die Art, wie wir denken. Diese These stellte der Medienwissenschaftler Marshall McLuhan schon in den 1960er Jahren auf. Der Leser eines Mediums sucht heute nach dem schnellen Nutzen, nicht nach dem guten Argument. Lange Texte werden nur wenig goutiert: „Nach zwei, drei Seiten schweife ich ab, werde unruhig und verliere schließlich den Faden. Mein eigensinniges Gehirn wehrt sich gegen den Text“, beschreibt der Wissenschaftler Nicholas Carr http://www.nicholasgcarr.com seine Selbstbeobachtungen. Das Internet treibt diese Veränderung an: „Kommunikation, auch die von Unternehmen zu ihren Kunden und Mitarbeitern, muss sich diesem Verhalten anpassen. Wer zu lange braucht, um seine Botschaft herüberzubringen, wird im Geschäft nicht mehr gehört“, so Axel Gloger, Chefredakteur des Bonner Fachdienstes Trendletter http://www.trendletter.de. Eine weitere Entwicklung: Die starke Nutzung des Internets fördert eine punktuelle, zeitlich begrenzte Konzentration. „Der Verstand erwartet von mir, dass ich ihm Informationen auf die gleiche Weise zuführe wie das Internet“, berichtet Carr aus seinem Selbstversuch. Der Info-Nutzer tauche nicht mehr in einen Ozean der Worte, sondern springt von Welle zu Welle, als fahre er einen Jetski. „Mein Denken findet manchmal in einem Stakkato statt – als würde ich online verschiedene Quellen heranziehen und von Fenster zu Fenster springen“, sagt Carr.

Das begünstigt das, was Filmregisseure als Pfannkuchenmenschen bezeichnen: „Das Denken wird breiter, aber dafür flacher. Auch die Mobilfunknachricht SMS gehört zu den Antreibern dieser Entwicklung. Der kurze, maximal 160 Zeichen umfassende Text prägt auch den Kommunikationsstil des geschäftlichen Alltags“, erklärt Gloger. Klares Indiz für diese These:: Die Telefongesellschaften machen mit SMS mittlerweile dreimal so viel Umsatz wie Hollywood mit dem Verkauf von Kinokarten. „E-Mail und SMS werden die Formalisierung, den reinen Info-Austausch weiter beschleunigen. Damit digital präsentierte Inhalte von Ihren Adressaten überhaupt gefunden werden, wird die Google-Optimierung immer wichtiger. Ein Text muss künftig so aufgebaut sein, dass die Such-Algorithmen ihn finden und möglichst weit oben auf die Trefferliste setzen. Derzeit findet Google nur Textstellen. Aber es sind bereits Systeme in der Entwicklung, die auch Gesichter auf Bildern und in Videos sowie Stichworte in gesprochenem Text erkennen“, weiß Gloger. I

In Zukunft werden intuitive Nutzerschnittstellen auf den Markt kommen, die aus den Suchmaschinen nutzerfreundliche Antwortmaschinen machen. Dabei werde die Spracherkennung eine größere Rolle spielen, so die Einschätzung von Lupo Pape, Geschäftsführer von SemanticEdge http://www.semanticedge.de in Berlin: „Die Informationen werden viel besser aufbereitet und verschlagwortet sein, so dass man konkrete Fragen stellen kann. Je nach Bedarf bekommt man Texte zum Lesen oder auch Audiofiles zum Anhören. Fragen wie ‚Wer war der 43. Präsident der Vereinigten Staaten?’ werden dann direkt beantwortet. Bei Informationsanfragen wie ‚Ursachen der Wirtschaftskrise 2008’ wird man Text, Audio- oder Videofiles zur Auswahl erhalten, die sehr viel genauer das Thema betreffen als die aktuelle Ergebnisliste bei Google.“ Das Semantische Web mache Text, Audio und Video zu gleichberechtigten Medien. „Die Redaktion einer Zeitung oder einer Zeitschrift wird nicht substituiert. Der Medienkonsum ändert sich allerdings. Jeder wird sein eigener Programmmanager und steuert autonom seinen Informations- und Unterhaltungsbedarf“, prognostiziert Sprachdialogexperte Pape.

Virtuelles Fräulein vom Amt – Sprachgesteuerte Handys als Tipping Point des Internets

Die Sprachsteuerung des iPhones mit „Google Mobile App“ http://googlemobile.blogspot.com wird von Web 2.0-Pionier Tim O’Reilly als „Tipping Point“ gewertet: Der Begriff  bezeichnet jenen Moment, in dem etwas Einzigartiges zum Normalzustand wird und einen qualitativen Umschlagspunkt markiert. „Es ist es an der Zeit, Telefone als erstklassige Geräte zu sehen, um auf das Internet zugreifen zu können, und nicht nur als Möglichkeit, Inhalte und Anwendungen umzuwidmen, die ursprünglich dazu gedacht waren, mit einer Tastatur und einem Bildschirm gelesen zu werden“, schreibt O’Reilly in seinem Blog http://radar.oreilly.com. Mit der Sprachsteuerungsfunktion werde ein neuer Weg für Computerdienstleistungen beschritten. „Apple begeisterte uns mit dem iPhone-Touchscreen, aber die Einbeziehung des Beschleunigungsmessers war fast ebenso wichtig; und jetzt hat Google uns gezeigt, wie dieser als Hauptkomponente einer Benutzeroberflächenanwendung eingesetzt werden kann. Legen Sie das Telefon ans Ohr und die Anwendung fängt an mitzuhören; eher durch eine natürliche Geste als durch ein künstliches Klopfen oder Klicken ausgelöst. Ja, der Beschleunigungsmesser wurde bereits in Spielen wie tilt oder the iPint verwendet, aber Google hat das Ganze noch etwas weiter getrieben durch die Integration des Telefon-Hauptsensors: das Mikrofon“, so O’Reilly. Nach seiner Ansicht liegt hier die Zukunft von Mobiltelefonen: eine Benutzeroberfläche zu entwickeln, die alle bisherigen Generationen über Bord wirft. Zeigen und klicken war ein Durchbruch für Computer, aber eine Sackgasse für das Design von Benutzeroberflächen.  

Mittlerweile haben das iPhone und ähnliche Smartphones eine Vielzahl an Sensoren: Mikrofon, Kamera, Touchscreen, Beschleunigungsmesser, und Standortortung. Neue Anwendungen und Kombinationen werden zu weiteren Überraschungen führen. „Künftige Geräte werden eine immer größere Anzahl an Sinnen haben, um darauf zu achten, was wir wollen. Könnte ein Telefon die Bewegung erkennen, die wir machen, wenn wir eine Kamera vor uns hochhalten, damit wir die Einstellungen festlegen können? Könnten wir mit dem Telefon reden um Kameraeinstellungen zu verändern? Könnte ein Telefon automatisch die Bewegung eines Autos erkennen und auf Sprachwahl umstellen? Und dann gibt es natürlich noch alle weitere Interaktionen mit anderen Geräten die möglich sind, wenn wir das Telefon als Steuerteil betrachten – ähnlich der Wii-Konsole von Nintendo“, erklärt O’Reilly. 

Auch in der ITK-Branche erwartet man Impulse über die Sprachsteuerung: „Computer werden heute immer noch primär über eine Tastatur bedient, die aus der Schreibmaschine entstanden ist, so als ob jeder Tastendruck einen mechanischen Hebel in Bewegung setzt. Selbst der Zeilenvorschub und Wagenrücklauf alias Carriage return ist uns erhalten geblieben, obwohl damit schon lange kein Papier mehr transportiert wird. Telefone haben zwar die Revolution von der Wählscheibe hin zur – in der Regel – 3×4 Tastatur gemacht, standardisiert nach ITU E.161, das erfolgte aber bereits in den 70er Jahren. Selbst moderne Handys und Smartphones halten sich noch an den Tastenwahlblock, entweder in mechanischer Ausführung oder als Icon-Darstellung auf einem Touchscreen“, weiß Andreas Latzel, Deutschland-Chef des ITK-Spezialisten Aastra http://www.aastra.de, der viel Wert auf die Benutzerfreundlichkeit seiner Systeme legt. Die Technikentwicklung sei zwar rasant schnell und ein gutes User-Interface inzwischen intelligent sowie kontextbezogen – im Kern aber immer noch traditionell. Vorhersehbar sei, dass der Tastaturblock an seine Grenzen stoße – spätestens mit der breiten Einführung der SIP-Telefonie und der SIP-Teilnehmeradressen.

„Anders als bei professionellen Tischgeräten kommt die Ausstattung von Handys mit alphanumerischen Tastaturen zwar auch vor, ist aber in der Regel wegen der beschränkten Abmessungen nicht befriedigend. Da bietet sich der Weg zum Sprachinterface an: der Ansage von Adressen oder Einträgen des Telefonbuchs in normaler Sprachform. Sinnvoll ist das beim Autofahren oder anderen Tätigkeiten, die beide Hände verlangen. Ein gutes Beispiel im professionellen Umfeld ist die Pflege in Altenheimen mit der Aastra-Branchenlösung OPAS. Hier kann beispielsweise mittels Telefon und Sprache die erbrachte Leistung dokumentiert werden – das Pflegepersonal gewinnt viel mehr Zeit für die Bewohner“, sagt Latzel. Übrigens schlage die Technik mit der Sprachwahl den Bogen zurück zu den Anfängen des Telefons vor der Einführung des Selbstwählsystems: damals aktivierte man den Telefonapparat durch Erzeugung einer Rufspannung über den Kurbelinduktor und sagte dem „Fräulein vom Amt“, mit welchem Teilnehmer man sprechen möchte. „Im modernen Telefon mit Sprachinteraktion wird das Fräulein von einer Software ersetzt“, so Latzel. In Kombination mit den Datenwolken von Google ergeben sich nach Prognosen von O’Reilly ungeahnte Möglichkeiten. „Sensorenreiche Geräte mit Anwendungen, die diese Sensoren nutzen, um mit Datenwolkendiensten zu interagieren und sie zu füttern. Der Standortsensor weiß, wo man sich befindet; das Mikrofon erkennt den Klang der Stimme, so dass es persönliche Daten in der Datenwolke frei setzt; die Kamera nimmt Objekte und Personen auf und sendet ein Bild zu einer abgelegenen Anwendung, die diese erkennt und die entsprechenden Informationen abruft“, führt O’Reilly aus. Viele Durchbrüche würden bereits vor der Tür stehen. Die Stimmen- und Gestenerkennung in der Google Mobile-Anwendung seien nur der Anfang. Der gleichen Meinung ist der Berliner Sprachdialogexperte Lupo Pape: „Es ist erst einmal eine Sprach- oder Diktiererkennung, die auf einer Suchmaschine und demnächst sogar auf weiteren Handyfunktionen aufsetzt. Sprachdialogsysteme werden es erst, wenn ein Wissen über die Domäne und Dialogintelligenz hinzukommen. Das ist das, was wir mit dem Personal Assistant umsetzen. Dazu müssen die Wissensgebiete semantisch aufbereitet und Dialogstrategien hinterlegt werden. Die wichtigsten Use-Cases gilt es zu modellieren“, resümiert SemanticEdge-Geschäftsführer Pape.

 

Siehe auch:

http://de.youtube.com/watch?v=y3z7Tw1K17A&eurl=http://googlemobile.blogspot.com/

http://googleblog.blogspot.com/2008/11/now-you-can-speak-to-google-mobile-app.html

 

Speak now! iPhone mit der eigenen Stimme steuern – Google-Programm wird als Meilenstein für die Durchsetzung der Sprachautomatisierung gewertet

01Jetzt ist es offiziell. Google stattet das iPhone von Apple mit einem Programm zur Sprachsteuerung aus. Das Mobile App macht es möglich, die Websuche mit der eigenen Stimme zu starten, heißt es im Mobile-Blog von Google http://googlemobile.blogspot.com. Bislang allerdings nur in englischer Sprache. Die umständliche Bedienung der Handytastatur fällt weg. In Kombination mit My Location kann man auch standortbezogene Informationen beziehen. Experten halten das für einen Meilenstein bei der Durchsetzung von Programmen für die Sprachautomatisierung. Anfang des Jahres wurde auf der Call Center World http://www.callcenterworld.de in Berlin noch darüber spekuliert, wie die Sprachdialogszene am Super-Handy bastelt: Fortschrittliche Mensch-Maschine-Schnittstellen wie Spracherkennung oder Gestensteuerung könnten aus dem Handy eine Steuerzentrale für Online-Inhalte machen und neue Geschäftsmodelle eröffnen: Sprachdialogsysteme sind nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und Maus tun und das ganze jederzeit und von jedem Ort aus”, erklärte Pape in Berlin. Mit der Sprachsteuerungstechnik für das iPhone wird diese Vision zur Realität. Am Nutzer der frei abrufbaren Anwendung müssen nur das Telefon an ihr Ohr halten und können dann praktisch jegliche Art von Fragen stellen, wie beispielsweise „Wo finde ich den nächst gelegenen Starbucks?“ oder „Wie hoch ist der Mount Everest?” Der Sprachlaut wird in eine digitale Datei konvertiert und anschließend an die Server von Google weitergeleitet. Die Suchergebnisse schließen zum Teil lokale Informationen mit ein. Dabei nutzt man die iPhone-Funktionen für die Bestimmung des konkreten Standorts. Die Fähigkeit, fast jeden gesprochenen Satz von einer x-beliebigen Person identifizieren zu können, war lange Zeit das höchste Ziel der Forscher für Künstlichen Intelligenz. Das Management von Google hat noch nicht kommuniziert, wann der Service ausgereift sein soll. Die Verantwortlichen sagten nur, dass der Service zumindest akkurat genug ist, um den Nutzern den großen Vorteil zu bieten, nicht mehr wie bisher ihre Anfragen auf der Bildschirm-Tastatur ihres iPhones eintippen zu müssen. Der Service kann genutzt werden, um Restaurant-Empfehlungen und Anfahrtsbeschreibungen zu erhalten, oder aber um Kontaktadressen aus dem Adressverzeichnis abzurufen. Auf die Frage “Welches ist das beste Pizza-Restaurant in Noe Valley?” würde das Google-System beispielsweise mit einer Liste von drei Restaurants in der Nachbarschaft von San Francisco reagieren, jede einzelne mit Sterne-Kategorie-Beurteilungen der Google-Nutzer und weiterführenden Links, durch die man Telefonnummern und Wegbeschreibungen anklicken kann.

Für Google ist die Technologie von entscheidender Bedeutung, um den nächsten Ansturm auf die Werbewelt vorzubereiten. Das Management kommentierte dies mit der Aussage, dass man durch lokale Anfragen beispielsweise höhere Werbekostensätze von Unternehmen aus der Region verlangen könne, obgleich der Verkauf einer solchen Werbeform bisher nicht Bestandteil ihres Portfolios sei. Wie auch bei den übrigen Produkten von Google ist dieser Service für die Nutzer frei verfügbar. Außerdem plant das Unternehmen, den Service später auch anderen Telefonsystemen zur Verfügung zu stellen. „Durch die Aspekte ‘Standort’ und ‘Sprache’ erhöhen wir gegenüber den Werbeträgern den Service-Nutzen auf dramatische Weise,” erklärte Vic Gundotra, Ex-Manager von Microsoft und nunmehr verantwortlich für das Mobile Business bei Google. Gundotra wies darauf hin, dass Google es geschafft hätte, das doppelte Problem der Informationseingabe und der Informationsabfrage für mobile Endgeräte erfolgreich zu lösen. „Diese zwei zusammenhängenden Probleme auf Weltklasse-Niveau zu lösen, ist unser oberstes Ziel“, erklärte Gundotra.

Die neue iPhone-Suchmöglichkeit ist nicht das erste Sprachdialog-System von Google. Schon im März hatte das Unternehmen verlauten lassen, dass der Auskunftsdienst GOOG-411 bereits zu einem reellen Produkt herangereift sei. Die Erfahrungswerte und Dateninformationen, die es durch das GOOG-411 gewinnen konnte, wurden für die Entwicklung für das iPhone herangezogen. Die neue Dienstleistung ist nach Expertenmeinung ein gutes Beispiel dafür, wie Google es schafft, elementare Informatik-Forschung mit Produkttechnik zu verbinden. Um dies zu erreichen, wurden einige der besten Spracherkennungs-Forscher der Welt engagiert. Die Teams in New York, London und Mountain View bearbeiten die Problematik aus unterschiedlichen Blickwinkeln. Wer von den Suchanbietern das Rennen um die Hoheit beim mobilen Internet gewinnen wird, hängt nach Auffassung von Voice Days-Sprecher Bernhard Steimel http://www.voicedays.de davon ab, wer den „Kampf um die besten Köpfe“ mit der größten Marktmacht verbinden kann. „Den Kampf um die Köpfe hat Google bereits gewonnen – besonders durch die Art von Google, immer alles neu zu entwickeln und die geniale Strategie, mit GOOG411 im weltgrößten ‚Freiland-Versuch’ das eigene Sprachmodell zu validieren und mit einer exzellenten Qualität aufzuwarten“.

Siehe auch:

http://de.youtube.com/watch?v=y3z7Tw1K17A&eurl=http://googlemobile.blogspot.com/

http://googleblog.blogspot.com/2008/11/now-you-can-speak-to-google-mobile-app.html


Sprachsteuerung: Google macht das iPhone zum Super-Handy

Im Februar 2008 hatte ich schon darüber berichtet, wie die Sprachdialogszene am Super-Handy bastelt: Fortschrittliche Mensch-Maschine-Schnittstellen wie Spracherkennung oder Gestensteuerung könnten aus dem Handy eine Steuerzentrale für Online-Inhalte machen und neue Geschäftsmodelle eröffnen: Sprachdialogsysteme sind nach Auffassung von Lupo Pape, Geschäftsführer des Berliner Unternehmens SemanticEdge http://www.semanticedge.de, ein wichtiger Baustein für das Super-Handy der Zukunft: „Wie häufig hätten wir gerne im Alltag genaue Informationen zu Sportergebnissen, Telefonnummern oder Adressen. Unendlich viele Dinge, die wir, wenn wir gerade im Internet wären, sofort über Google abrufen würden. Da das aber in der Freizeit und von unterwegs selten der Fall ist und der Zugriff über das Handy mit Tastatur oder Touchscreen zu mühselig ist, verzichten wir meistens darauf, unseren Wissenshunger sofort zu stillen. Anders wäre es, wenn wir mit einfachen gesprochenen Suchbefehlen unsere Anfrage starten und die Suche dann bei Bedarf eingrenzen könnten, genauso, wie wir es derzeitig mit der PC-Tastatur und Maus tun und das ganze jederzeit und von jedem Ort aus”, erklärt Sprachdialogexperte Pape zum Start der Call Center Worldhttp://www.callcenterworld.de in Berlin. Seit Freitag wissen wir, dass das keine Hirngespinste sind. Google bringt die Sprachsteuerungstechnik auf das iPhone. 

Nutzer der frei abrufbaren Anwendung müssen nur das Telefon an ihr Ohr halten und können dann praktisch jegliche Art von Fragen stellen, wie beispielsweise „Wo finde ich den nächst gelegenen Starbucks?“ oder „Wie hoch ist der Mount Everest?“ Der Sprachlaut wird dann in eine digitale Datei konvertiert, die anschließend an die Server von Google weiter geleitet wird. Dort werden die gesprochenen Worte ermittelt, die im Anschluss daran an die Google Suchmaschine gehen. 

Die Ergebnisse dieser Suche, die in nur wenigen Sekunden auf einem schnell arbeitenden drahtlosen Netzwerk angezeigt werden können, schließen zum Teil lokale Informationen mit ein. Dabei macht man sich die Funktionalitäten des iPhones zu Nutze, über die man den konkreten Standort bestimmen kann.

Die Fähigkeit, fast jeden gesprochenen Satz von einer x-beliebigen Person identifizieren zu können, war lange Zeit das höchste Ziel der Forscher für Künstlichen Intelligenz. Ihr Bestreben galt dabei besonders dem Erforschen von Methoden, die bewirken sollen, dass die Interaktionen zwischen Mensch und Maschine zu einer Selbstverständlichkeit werden. Systeme, die mit einer solchen Fähigkeit ausgestattet sind, haben kürzlich damit begonnen, als kommerzielle Produkte die Märkte zu erobern.

Sowohl Yahoo als auch Microsoft bieten bereits Sprachdienstleistungen für Handys an. So gibt der Microsoft Tellme Service Informationen nach speziellen Kategorien, wie beispielsweise Anfahrts- und Wegbeschreibungen, Landkarten und Spielfilme wieder. Das Yahoo oneSearch System mit Spracherkennung ist im Vergleich dazu flexibler, dafür scheint es aber nicht so akkurat zu funktionieren wie das Angebot von Google. Das Google-System ist noch lange nicht perfekt und sendet beispielsweise Anfragen zurück, die wie Kauderwelsch klingen. Das Management von Google hat sich bisher zurückgehalten, Schätzungen bekannt zu geben, die besagen, wie oft der Service korrekt funktioniert. Die Verantwortlichen sagten nur, dass sie der Meinung seien, dass der Service zumindest akkurat genug ist, um den Nutzern den großen Vorteil zu bieten, nicht mehr wie bisher ihre Anfragen auf der Touchbildschirm-Tastatur ihres iPhones eintippen zu müssen.

Der Service kann genutzt werden, um Restaurant-Empfehlungen und Anfahrtsbeschreibungen zu erhalten, oder aber um Kontaktadressen aus dem iPhone Addressverzeichnis abzurufen. Genauso kann der Service dafür nützlich sein, Auseinandersetzungen in Bars zu bereinigen. Auf die Frage “Welches ist das beste Pizza-Restaurant in Noe Valley?“ würde der Service beispielsweise mit einer Liste mit drei Restaurants in der Nachbarschaft von San Francisco reagieren, jede einzelne mit Sterne-Kategorie-Beurteilungen von Google Nutzern und weiterführenden Links, durch die man Telefonnummern und Wegbeschreibungen anklicken kann.

Raj Reddy, ein Wissenschaftler der Künstlichen Intelligenz an der Carnegie Mellon University, der Pionierarbeit in der Spracherkennung geleistet hat, sagte, dass der Vorteil von Google sei, riesige Mengen an Daten zu speichern und zu analysieren. „Welches Produkt Google auch immer zum jetzigen Zeitpunkt auf den Markt bringt, wird schon in drei oder sechs Monaten signifikant an Fehlerfreiheit und Akkuratesse hinzu gewonnen haben“, erklärte Reddy.

Reddy fügte ferner hinzu: „Es ist wichtig zu verstehen, dass Spracherkennungssysteme nie richtig perfekt sein können. Die Frage sollte vielmehr lauten: bis zu welchem Punkt ist die Maschinenleistung in der Lage, sich der menschlichen Leistung zu nähern?“ Für Google ist die Technologie von entscheidender Bedeutung, um den nächsten Ansturm auf die Werbewelt vorzubereiten. Das Management von Google kommentierte dies mit der Aussage, dass man durch lokale Anfragen beispielsweise höhere Werbekostensätze von Unternehmen aus der Region verlangen könnte, obgleich der Verkauf einer solchen Werbeform bisher nicht Bestandteil ihres Portfolios sei.

Wie auch bei den übrigen Produkten Googles ist dieser Service für die Nutzer frei verfügbar. Außerdem plant das Unternehmen, den Service später auch anderen Telefonsystemen zur Verfügung zu stellen.

„Durch die Aspekte ‚Standort‘ und ‚Sprache‘ erhöhen wir gegenüber den Werbeträgern den Service-Nutzen auf dramatische Weise,” erklärte Vic Gundotra, ein ehemaliger leitender Angestellter von Microsoft, der nun das Mobile-Business bei Google leitet.

Dabei ist Google keinesfalls das einzige Unternehmen, das daran arbeitet, zukunftsweisende Spracherkennungs-Ressourcen zu erschließen. Eine so genannte Spracherwiderungstechnologie kommt schon heute regelmäßig bei telefonischen Anrufbeantwortersystemen und anderen Verbraucherdienstleistungen und -produkten zum Einsatz. Allerdings haben diese Systeme oft Schwierigkeiten mit der Komplexität von Dialogen. Außerdem offerieren sie in der Regel nur ein eingeschränktes Repertoire an Antworten auf die eingehenden Anfragen.

Vor einigen Wochen hatte Adobe seiner Creative Suite Software die von dem britischen Unternehmen Autonomy entwickelte Spracherkennungstechnologie hinzugefügt. Dadurch wurde die Möglichkeit geschaffen, Videokopien und Audio-Aufzeichnungen mit einem hohen Grad an Genauigkeit zu erstellen.

Gundotra wies darauf hin, dass Google es geschafft hätte, das doppelte Problem der Informationseingabe und der Informationsabfrage für mobile Endgeräte erfolgreich zu lösen.

„Diese zwei zusammenhängenden Probleme auf Weltklasse-Niveau zu lösen, ist unser oberstes Ziel“, erklärte Gundotra.

Die neue iPhone Suchmöglichkeit ist nicht das erste Sprach-basierte Angebot von Google. Schon im März hatte das Unternehmen verlauten lassen, dass das GOOG-411, ein experimenteller Auskunftsdienst, bereits zu einem reellen Produkt herangereift sei. Der Service eröffnet Nutzern die Möglichkeit, Geschäfts-Telefonnummern und Adressinformationen abzufragen. Google sagte, dass es sich die Erfahrungswerte und Dateninformationen, die es durch das GOOG-411 gewinnen konnte, für die Entwicklung des iPhone Services zu Nutze gemacht hätte.

Die neue Dienstleistung ist ein gutes Beispiel dafür, wie Google es schafft, elementare Informatik-Forschung mit Produkttechnik zu verbinden. Um dies zu erreichen hat das Unternehmen einige der besten Spracherkennungs-Forscher der Welt engagiert. Die Teams in New York, London und dem Hauptsitz in Mountain View bearbeiten die Problematik aus unterschiedlichen Blickwinkeln.

Ein verblüffender Teil des Gesamtdesigns der Dienstleistung wurde von einem Google-Researcher aus London beigesteuert, der eine Möglichkeit entdeckte, wie man den iPhone Akzelerometer nutzen kann — das Gerät, das per Sensortechnik erkennt, wie das Telefon gehalten wird. Die Researcher von Google erklärten, dass ein weiterer Vorteil gegenüber der Konkurrenz in der Tatsache bestehen würde, dass die Verbraucher in den vergangenen Jahren bereits Milliarden von Anfragen bei Google getätigt hätten, was allein schon für eine große Erfahrungskompetenz spräche.

„Eine Sache, die sich geändert hat, ist die heute verfügbare Berechnungsgröße und die Datenmenge“, erklärt der Sprachforscher Mike Cohen, der bevor er zu Google kam, als Mitbegründer bei Nuance Communications tätig war. Cohen empfahl darüber hinaus, dass frühere Anfragen dazu genutzt werden könnten, ein statistisches Modell zu erstellen, das demonstriert, auf welche Art und Weise Wörter häufig in einer aneinander gereihten Form auftreten. Dies ist nur eine der vielen Komponenten des Spracherkennungssystems, zu dem außerdem ein Sprachlaut-Analyse-Modell zählt ebenso wie ein Mechanismus, der es ermöglicht, die elementaren Sprachkomponenten mit tatsächlichen Wörtern zu verknüpfen.

Google hat vor kurzem ein technisches Dokument über die Entwicklung von umfangreichen Modellen zur maschinellen Übersetzung der Sprache veröffentlicht. Die Forscher schrieben dazu, dass sie das System an zwei Billionen „Informationsmerkmalen“ oder Wörtern erprobt hätten.

Hier die Demonstration des Dienstes auf Youtube: http://de.youtube.com/watch?v=GQ3Glr5Ff28