Amazing Race: Diktiersoftware Dragon gewinnt gegen die Meisterin im Schnellschreiben

Meisterin im SchnellschreibenSpracherkennung ist nicht nur für Ärzte und Juristen ein heißes Thema. In vielen Berufen muss ein hohes Schreibaufkommen unter Zeitdruck bewältigt werden. „Kein Wunder, dass immer mehr Krankenhäuser und Gerichte nach neuen Wegen suchen. Da ist zunächst der Umstieg auf die Digitaltechnik, die das mühsame Hantieren mit Kassettenbändern ersetzt und zudem den elektronischen Transport der Diktate erlaubt. Dass die Akustik solcher Aufzeichnungen deutlich besser ist, kommt als angenehmer Nebeneffekt hinzu. Der zweite Schritt ist der Übergang zur elektronischen Spracherkennung am PC, wobei in der Regel die Standardsoftware Dragon Naturally Speaking für Windows zum Einsatz kommt. Kein anderes Programm hat eine vergleichbar hohe Erkennungsleistung“, schreibt beispielsweise Michael Spehr von der FAZ.

Wozu Maschinen schon jetzt in der Lage sind, stellte ein Amazing Race am 11. November 2009 in München auf dem Fachkongress Conversations DACH unter Beweis. In einem Mensch-gegen-Maschine-Wettkampf trat Martina Wichers, Deutsche Meisterin im Schnellschreiben, gegen das Spracherkennungssystem Dragon Naturally Speaking von Nuance an. Frau Wichers war unheimlich schnell. Das beweist mein Mitschnitt. Die Software brauchte allerdings nur die Hälfte der Zeit. Hier der Film.
Foto Amazing Race

Tagesanzeiger Schweiz: Menschliche Stimme könnte PIN-Code ersetzen – Ach wäre das schön

Spracherkennung eignet sich nach einem Bericht des Schweizer Tagesanzeigers auch zur Stimmerkennung. Die Stimme identifiziert ihren Besitzer so sicher wie der Fingerabdruck. Hatte ich schon mal was zu geschrieben. Die Stimmerkennung sei, was inzwischen auch viele Unternehmen bestätigten, ein ebenso sicheres Identifizierungsmittel wie etwa der Fingerabdruck. Die Anwendung sei für den Benützer unkompliziert, kontaktlos und schnell, erläutert Bommer gegenüber dem Tagesanzeiger. In einem arabischen Land habe eine Bank das System unter dem Namen Voicepay bereits an den Geldautomaten eingeführt, weil zahlreiche Fremdarbeiter Analphabeten seien und mit der Tastatur Mühe hätten.

Und was passiere, wenn man erkältet ist? „Die Frage kommt immer sofort“, sagt Bommer. Doch die Stimme werde auf 154 Kennzeichen analysiert, etwas Heiserkeit vertrage das System schon. Schwierig werde es, wenn die Stimme angesäuselt oder gar betrunken klinge. Aber bei vielen Anwendungen gelte die Stimme allein ohnehin nicht als elektronische Unterschrift, sie sei Teil einer ganzen Kette von Sicherheitsmerkmalen.

Computern gelinge es bereits ganz gut, Gespräche in schriftliche Daten zu übertragen und Stimmen bestimmten Personen zuzuordnen. Nun kommt der nächste Schritt: Der Computer soll die Informationen „verstehen“. „Mit künstlicher Intelligenz meinen die Informatiker, dass ein System Daten selbstständig so analysiert, dass es ohne gezieltes Programm Zusammenhänge herstellen kann. Man würde einem solchen Computer in Klartext eine Frage stellen, und er würde aufgrund seiner Datenbanken die Antwort finden“, so der Tagesanzeiger.

Ein nettes Anwendungsbeispiel gibt es in Australien.

Siehe auch:
Menschliche Stimme statt PIN-Code.

Das Microsoft-Auto – Fahrkomfort durch Internet-Dienste und Sprachsteuerung

C-Kl. Elegance_Cockpit_04Sowohl Microsoft als auch Open-Source-Initiativen sehen ein großes Potenzial für den Einsatz von Internet-Software in Autos. Ein System von Microsoft und Fiat soll nach einem ORF-Bericht den Nutzern dabei helfen, ihren Fahrstil umweltfreundlicher zu machen. „In den USA hockt schon ein virtueller Versicherungsagent mit im Bordcomputer, der risikoreiches Fahren mit höheren Prämien bestraft“, so der Fernsehsender ORF. „Microsoft bringt webbasierte Dienste ins Auto“, kündigte Microsoft-Manager Tom Philipps im Gespräch mit ORF.at an. Seit etwa zehn Jahren spiele Software im Auto eine zunehmend wichtigere Rolle. Microsoft möchte Autoanwendungen um Internet-Dienste erweitern. Philipps bezeichnet das Auto als „Aktivitätsinsel“, da es bisher nicht ins Internet integriert war. Ein Beispiel für die Verschränkung von Fahrzeug und Web sei das eco-Drive-Programm, das der italienische Autohersteller Fiat auf Basis der Software-Plattform „Microsoft Auto“ entwickelte. Hier die komplette Meldung.

Sprachcomputer brauchen mehr Dialogintelligenz – Warum Tonwahlsysteme nerven

Klassische Sprachautomaten sind für viele Verbraucher ein Ärgernis. Wenn Firmen schlechte Systeme anbieten, würde das einen schlechten Eindruck beim Kunden hinterlassen, so Professor Elmar Nöth, Experte für Sprachverarbeitung an der Friedrich-Alexander-Universität Erlangen-Nürnberg, gegenüber dem Fachmagazin „Direktmarketing“: „Der Mensch soll sich aber nicht auf die Maschine einstellen, sondern die Maschine auf den Menschen. Billige Systeme führen zu genervten Leuten, und das ist schlecht für Kunden und Unternehmen.“

Sprachautomaten brauchen daher eine sehr ausgefeilte Dialogintelligenz. Davon ist Lupo Pape, Geschäftsführer von SemanticEdge in Berlin, überzeugt. Sprachsysteme sollten nicht nur die Fähigkeit besitzen zu sprechen, sondern müssten sich auch auf das Gesagte einstellen können. Der Anrufer gibt Anweisungen oder stellt Fragen, die vom Computer befolgt oder beantwortet werden. Noch weiter gehen Entwicklungen, die den Anrufer erkennen, seine Emotionen heraushören und sich entsprechend anpassen können. „Die Personalisierung der Dialogsysteme ist ein wichtiger Schritt, um Kundenwünsche vorausahnen zu können auf Basis der Kundendaten. Dann sind differenzierte Services und Auskünfte möglich, je nachdem wer, wann und wo anruft“, erläutert Pape. Der Dialog laufe dann wie folgt: Hallo Herr Herrmann! Oh! Ich sehe, dass Sie in letzter Zeit mehrfach versucht haben sich einzuwählen. Möglicherweise haben Sie Probleme mit…

Die alten Tonwahl-Systeme, drücken Sie die 1, wenn Sie ein Problem mit Ihrem Drucker haben, drücken Sie die 2, wenn Sie eine Frage zu neuen Produkten haben, seien nicht mehr zukunftsfähig. „Diktiererkenner werden immer besser und auch die Dialogtechnologie macht enorme Fortschritte. Die Systeme können viel mehr verstehen und die Dialoge werden immer natürlicher“, so Pape zur Weiterentwicklung der Sprachsteuerung. Interessante Dinge könnten in der mobilen Welt passieren. Der Dienst „Google Voice Search“ habe das Potential, sich zu einem persönlichen Assistenten zu mausern.

Call Center auf der Hitliste des Zorns und Sprachcomputer als Kunden-Abfangjäger

Interview mit Genesys-Manager Heinrich Welter
Interview mit Genesys-Manager Heinrich Welter
Call Center wurden in der Vergangenheit nach der industriekapitalistischen Logik auf Effizienz getrimmt nach dem Motto „One size fits all“. Eine sehr kurzsichtige Geschäftspolitik. „Eine reine Fokussierung auf Call Center als Kostensparmaschine und auf die Produktivität von Agenten reicht nicht aus. Man muss die gesamte Interaktion mit den Kunden betrachten, um optimale Services zu bieten“, sagte Heinrich Welter vom Softwarespezialisten Genesys auf der Fachkonferenz G-Force in Barcelona. Das gelte auch für die neuen Kommunikationswege des Web 2.0, die mit den tradierten Kommunikationswegen der Unternehmen harmonisiert werden müssen. Vielfach seien Telefon- und Webdienste noch voneinander getrennt.

„Insgesamt stellen wir bei vielen Firmen fest, dass sie nicht die gesamten Prozesse im Zusammenwirken mit ihren Kunden systemisch durchplanen. Bei einem großen TK-Unternehmen beschäftigt sich beispielsweise eine Geschäftseinheit nur mit dem Verschicken des DSL-Splitters, eine andere Einheit kümmert sich darum, wie ein analoger Anschluss auf DSL umgeschaltet wird, eine weitere Einheit setzt sich damit auseinander, wie man Rechnungen im Internet abwickeln kann. Ein Kundenmanagement aus einer Hand sieht anders aus. Hier setzen wir mit unseren Technologien zur Prozesssteuerung an, um Kunden systemisch bedienen zu können“, so Welter.

Hotlines würden bei Verbraucherbefragungen regelmäßig Spitzenplätze auf der Hitliste des Zorns belegen, weil sie häufig nur als notwendiges Übel betrachtet werden. „Call Center sollen so günstig wie möglich laufen, häufig auch noch ausgelagert in Billiglohnländer. Sprachautomaten verschlimmern das Ganze, wenn sie als Kunden-Abfangjäger fungieren, um Kontakte zum Call Center-Agenten zu verhindern. Hier werden keine Maßanzüge geboten. Man beschränkt sich auf Konfektionsware. Firmen verspielen nicht nur ihre Reputation, sondern handeln sich wütende Kundenanrufe ein, die unter dem Strich zu höheren Servicekosten führen. Deshalb sollte man für reibungslose und exzellente Serviceabläufe sorgen“, erklärte Welter.

Das sei aber nicht nur eine Frage der Technologie, sondern auch eine Frage der Management-Qualität. „Deswegen haben wir eine eigene Business Consulting-Gruppe gegründet. Es reicht eben nicht aus, wenn wir unseren Geschäftkunden sagen, welche Features unsere Technologien haben. Die Genesys-Berater zeigen deshalb auf, wie Prozesse systemisch einwandfrei aufgesetzt werden müssen und wie man alle Kontaktkanäle zum Endkunden ohne Medienbrüche organisiert. Das geht bis zur Aufbereitung der Rechnung, die zur mehr Klarheit im Kundenservice beitragen kann“, führte Welter weiter aus.

Thomas Wind von der Beratungsfirma TellSell Consulting sieht die Notwendigkeit eines ausgefeilten Service Designs. „Unternehmen betreiben einen großen Aufwand, um technisch brillant zu sein und möglichst viele Features zu haben. Beim Kundenservice müsste es genauso sein. Das sollte nach einem Drehbuch ablaufen aus der Sicht des Kunden. Das gilt besonders für die Sprachautomatisierung. Theoretisch sind ja viele bereit, Self Service in Anspruch zu nehmen wie am Bankautomaten oder bei der Online-Buchung von Reisen. Es muss dann allerdings auch perfekt funktionieren, was leider häufig nicht der Fall ist“, monierte Wind in Barcelona. Wenn man die Vorteile eines Services deutlich mache, der rund um die Uhr anonymisiert genutzte werden könne, steigt auch die Akzeptanz.

Generell nimmt Wind eine höhere Sensibilität in der Wirtschaft wahr, einen verlässlichen und persönlichen Kundenservice zu bieten. Sowohl für die „Generation Wählscheibe“ als auch für die „Generation Facebook“. „Auch hier werden Szenarien durchgespielt, ob jede Altersgruppe die Dienstleistungen auch wirklich versteht und richtig damit umgehen kann“, so die Einschätzung von Wind.

Oftmals würden sich die Kundenservice-Einheiten am Ende der Nahrungskette befinden und müssten sich mit Fehlleistungen im Produkt, bei Prozessen und Service herumplagen, kritisiert Bernhard Steimel, Sprecher der Voice Days plus. „Systematische Kundenforschung und lernen aus Kunden-Feedback kann helfen, bestehende Produkte zu verbessern und Service-Innovationen anzustoßen. Auf den Voice Days plus am 6. und 7. Oktober in Nürnberg wollen wir Unternehmen präsentieren, die konsequent diesen Weg gehen. Beispielsweise 02, die auf Basis von Kundenbefragungen das neue Tarifkonzept mit ‚Kosten-Airback’ entwickelt haben“, so der Ausblick von Steimel. Unter dem Motto „Service für die Facebook-Generation“ werden weitere Firmen wie eBay, Cosmos direct oder auch Audi darstellen, wie man Kunden zum Impulsgeber für Prozessoptimierung und Service-Design einsetzen könne.

Abschied vom Tastenwahlblock – Sprachsteuerung als „Tipping Point“ des mobilen Internets

Lösungen von Nuance für die Automobilbranche
Lösungen von Nuance für die Automobilbranche
Mobile Computer und Navis setzen sich nach einem Bericht des Computer Informationsdienstes (CID) immer mehr durch. Doch wer unterwegs auf den Rechner zugreifen möchte, hat nicht immer die Hände frei oder muss die Augen auf seine Umgebung richten. Hier sehen die Marktforschungsexperten der Datamonitor Group die größten Chancen für Sprachsteuerungs-Applikationen. Die weltweiten Umsätze mit sogenannter „Advanced Speech Recognition” (ASR) sollen demnach in Smartphones und mobilen Kleinrechnern von 32,7 Millionen US-Dollar im Jahr 2009 auf 99,6 Millionen US-Dollar im Jahr 2014 steigen. Für die Spracherkennung in Fahrzeugen sagen die Analysten eine Steigerung von jetzt 64,3 Millionen US-Dollar auf 208,2 Millionen US-Dollar im Jahr 2014 voraus.

Sprachsteuerung für mobile Geräte
Sprachsteuerung für mobile Geräte
Sprachcomputer zählen auch für die Suchmaschinen zu den wichtigsten Instrumenten, um das mobile Internet bequem bedienen zu können. So bietet Yahoo ab sofort die Handy-Applikation „oneSearch Voice“ für Smartphones und das iPhone in Deutschland an. Das lästige Tippen auf der kleinen Tastatur oder dem Touch-Screen falle weg. Es genüge jetzt, den Suchbegriff per einfach auszusprechen. Die Darstellung der Ergebnisse werden für Handy-Displays optimiert angezeigt: Statt langer Linklisten liefere Yahoo nach Kategorien gegliederte Antworten. Sucht man beispielsweise mit der gesprochenen Eingabe „Bundesliga“ nach aktuellen Fußballergebnissen, erhält man eine Vielzahl von detaillierten Resultaten wie aktuelle Spielstände, Tabellenübersichten, Fotos sowie weiterführende Links. Die Ergebnisse sind nach Angaben von Yahoo übersichtlich in Kategorien aufbereitet. „Das System ist lernfähig: Es passt sich immer besser an die individuelle Sprechweise seines Nutzers an, je häufiger es eingesetzt wird. Während die meisten mobilen Spracherkennungssysteme auf einzelne Kategorien wie lokale Suchen spezialisiert sind, bietet wir den Nutzern die Möglichkeit, offene Suchanfragen zu stellen – mit hoch relevanten Ergebnissen für jede Art von Spracheingabe“, erklärt Michael Stenberg, Partner Director Central & Eastern Europe Yahoo! Mobile. Stenberg. Wer es dennoch lieber klassisch mag, könne nach wie vor auch die herkömmliche Texteingabe nutzen.

tipping pointDurch das Spracherkennungs-Feature will Yahoo seine Position als zentraler Einstiegspunkt ins mobile Internet festigen. Die Applikation kann unter http://de.m.yahoo.com/voice direkt auf unterstützte Handys oder über den iTunes Store auf das iPhone heruntergeladen werden. Die Sprachsteuerung wird von Web 2.0-Pionier Tim O’Reilly http://radar.oreilly.com sogar als „Tipping Point“ gewertet: Der Begriff bezeichnet jenen Moment, in dem etwas Einzigartiges zum Normalzustand wird und einen qualitativen Umschlagspunkt markiert. „Es ist es an der Zeit, Telefone als erstklassige Geräte zu sehen, um auf das Internet zugreifen zu können, und nicht nur als Möglichkeit, Inhalte und Anwendungen umzuwidmen, die ursprünglich dazu gedacht waren, mit einer Tastatur und einem Bildschirm gelesen zu werden“, meint O’Reilly.

Tastenwahlblock auch digital bislang nicht tot zu kriegen
Tastenwahlblock auch digital nicht tot zu kriegen
Auch in der ITK-Branche erwartet man Impulse von der Sprachsteuerung: „Computer werden heute immer noch primär über eine Tastatur bedient, die aus der Schreibmaschine entstanden ist, so als ob jeder Tastendruck einen mechanischen Hebel in Bewegung setzt. Selbst der Zeilenvorschub und Wagenrücklauf alias Carriage return ist uns erhalten geblieben, obwohl damit schon lange kein Papier mehr transportiert wird. Telefone haben zwar die Revolution von der Wählscheibe hin zur – in der Regel – 3×4 Tastatur gemacht, standardisiert nach ITU E.161, das erfolgte aber bereits in den 70er Jahren. Selbst moderne Handys und Smartphones halten sich noch an den Tastenwahlblock, entweder in mechanischer Ausführung oder als Icon-Darstellung auf einem Touchscreen“, weiß Andreas Latzel, Deutschland-Chef des ITK-Spezialisten Aastra, der viel Wert auf die Benutzerfreundlichkeit seiner Systeme legt. Die Technikentwicklung verlaufe zwar rasant, im Kern aber immer noch traditionell. Vorhersehbar sei, dass der Tastaturblock an seine Grenzen stoße – spätestens mit der breiten Einführung der SIP-Telefonie und der SIP-Teilnehmeradressen.

„Anders als bei professionellen Tischgeräten kommt die Ausstattung von Handys mit alphanumerischen Tastaturen zwar auch vor, ist aber in der Regel wegen der beschränkten Abmessungen nicht befriedigend. Da bietet sich der Weg zum Sprachinterface an: der Ansage von Adressen oder Einträgen des Telefonbuchs in normaler Sprachform. Sinnvoll ist das beim Autofahren oder anderen Tätigkeiten, die beide Hände verlangen“, erläutert Latzel. Noch interessanter werde die Sprachsteuerung nach Ansicht von SemanticEdge-Geschäftsführer Lupo Pape, wenn Wissen über die Domäne und Dialogintelligenz hinzukommen. „Dann kann man von Sprachdialogsystemen sprechen. Das ist das, was wir mit dem Personal Assistant umsetzen. Dazu müssen die Wissensgebiete semantisch aufbereitet und Dialogstrategien hinterlegt werden. Die wichtigsten Use-Cases gilt es zu modellieren“, resümiert Pape.

Boom des mobilen Internets nicht aufzuhalten – Innovationsbedarf bei der Interaktion von Nutzer und Technik

80 Prozent der Internetnutzer in Japan gehen mobil ins Web
80 Prozent der Internetnutzer in Japan gehen mobil ins Web
Nach Ansicht von HTC-Chef Peter Chou http://www.htc.com ist es erst durch den Computerhersteller Apple gelungen, das Mobiltelefon zum Internet-Terminal zu machen. „Der Grund ist, glaube ich, ein tief greifendes Missverständnis bei den Telefonherstellern. Wir Ingenieure haben uns viel zu sehr auf technische Details oder ellenlange Funktionslisten konzentriert – aber die Masse der Benutzer hat das wenig geschert. Apple hat es als Erster mit einem ganz neuen, ganz anderen Geräte- und Bedienkonzept versucht. Und Erfolg gehabt“, so Chou im Interview mit der Wirtschaftswoche.

Den größten Innovationsbedarf fürs Handy der Zukunft sieht er in der Interaktion zwischen Nutzer und Technik. „Eine wirklich intelligente Sprachsteuerung wäre ein Ansatz. Aber das erfordert enorm viel Rechenleistung, und die braucht viel Strom. Die nötigen Akkus machen die Geräte groß und schwer. Das ist eine der ganz großen Herausforderungen, nicht nur für die Handyproduzenten, sondern die gesamte IT-Branche“, so Chou gegenüber der Wirtschaftswoche.
infobox_de
Nach Ansicht von Björn Behrendt, Geschäftsführer der Wissenscommunity Hiogi gibt es mittelfristig nur zwei Steigerungsmöglichkeiten zum genialen iPhone-Design und den strikten Softwaredesignvorgaben von Apple, die geprägt sind durch die zwei Knöpfe und den großen Touchscreen mit Fingertipp-Bedienung: „Spracherkennung und Befehle über Gedanken. Da viele Gerätehersteller noch meilenweit entfernt sind von der iPhone-Usability empfiehlt sich auch für HTC: lieber schnell kopieren als in Ehre zu sterben“, so Behrendt.

Klar sei auf jeden Fall, dass der Boom des mobilen Internets nicht aufzuhalten ist. „Trendsetter sind die Asiaten. So hatten im vergangenen Jahr schon 90 Prozent der Südkoreaner einen mobilen 3G-Zugang und 63 Prozent führen mobile Zahlungen durch. Vier Fünftel der Japaner gehen mobil ins Web und schon jeder Zehnte macht das ausschließlich mobil“, sagte Behrendt bei seinem Vortrag auf dem Mehrwertforum der Deutschen Telekom in Berlin. Hier der Vortrag von Behrendt.

Neue Technik werde in der Startphase häufig überschätzt. „Jahre später dann, wenn sie vor ihrem Durchbruch steht, wird ihr Einfluss unterschätzt. Hype-Zyklen nennen Experten dieses Phänomen. Einen solchen Zyklus hat auch das mobile Internet durchlaufen. Während der Versteigerung der UMTS-Lizenzen überboten sich Visionäre mit Prognosen, das Handy werde schon bald zu einer Art digitalem Butler mutieren. Alle machten Jagd auf die Killer-Applikation, die ultimative, weil geldbringende Anwendung. Doch Mobiltelefone blieben graue Kästen, mit denen Kunden allenfalls Kurznachrichten verschickten. Für das mobile Surfen interessierte sich kaum jemand“, schreibt die Wirtschaftswoche.

Nun sei der Knoten geplatzt. Um 16 Prozent werde der Umsatz mit mobilen Datendiensten in diesem Jahr weltweit zulegen, auf 124 Milliarden Euro. Das erwartet der Branchenverband Bitkom. Laut einer Umfrage des Bundesverbands Digitale Wirtschaft nutzt bereits jeder Dritte das mobile Internet. Parallel dazu leitete die Telekom-Tochter T-Mobile im vergangenen Jahr dreimal mehr Daten durch ihre europäischen Netze als 2007. Das mobile Internet sei ein neues Massenmedium, das laut Google-Chef Eric Schmidt ein größeres Geschäft werde, als das PC-Internet es je war.

„Das mobile Internet ist erst in Ansätzen erkennbar. Da ist vor allen Dingen in Europa noch sehr viel Marktpotenzial vorhanden. So kann niemand vorhersagen, was passiert, wenn beispielsweise ortbasierte Services auf auf Web 2.0-Communities treffen. Natürlich hat das eine enorme Sprengkraft wenn Giganten wie Apple, Google, Microsoft und Nokia aufeinander treffen und gleichzeitig noch Heerscharen von Applikationsentwicklern auf deren freigegebenen Plattformen innovative Dienste für den mobilen Nutzer entwickeln und täglich neue Dienste auf den Downloadcharts vom Apple-Store oder demnächst auch OVI stehen“, erläutert Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.

Die Innovationsgeschwindigkeit verlaufe zur Zeit ungehemmt, keiner weiß, wo das hinführen wird und wie sich unser Leben und wie sich insbesondere auch die Wertschöpfungsketten in der Wirtschaft verändern werden. „Interessant ist, dass trotz der ganzen Vielfalt der Software, Hardware und Anwendungen, die sich dahinter verbergenden Nutzungsszenarien der Endverbraucher meist sehr einfach bleiben: ‚Wo ist der nächste Fahrradladen?’; ‚Welche Freunde sind gerade in der Nähe?’; ‚Wie gut ist der Inder dort an der Ecke?’; ‚Gibt es die Kamera noch irgendwo billiger?’“, so der Sprachdialogexperte Pape. Das seien Nutzungsszenarien, die nach einer Spracherkennung und einem Sprachdialog geradezu schreien. „Wenn es gelingt, den Sprachdialog in die mobilen Anwendungen einzubinden, dann wird die ganze Entwicklung noch einmal eine neue Dimension bekommen. Spracherkennung und Sprachdialog werden auch der Schlüssel dafür sein, Bevölkerungsgruppen an der Entwicklung teilhaben zu lassen, die von der neuen Technologie bisher ausgeschlossen sind“, resümiert Pape. Das müssten die großen Anbieter in ihren Strategien für das mobile Internet berücksichtigen.

Spracherkennung als Bürokratiekiller im Gesundheitswesen

Sie produzieren Berge von Bürokratie – so lautet einer der häufigsten Kritikpunkte an modernen Gesundheitssystemen in aller Welt. „Doch gegen Bürokratie lässt sich etwas unternehmen: Kliniken, die bei der Erstellung von Dokumenten auf digitales Diktat und Spracherkennung setzen, beschleunigen damit das Anfertigen von Arztbriefen und Befunden“, berichtet der Fachdienst HealthTech Wire.

Sie würden das medizinische Personal entlasten, die Patientensicherheit erhöhen und die einrichtungsübergreifende Vernetzung voranbringen. „Aktuelle Daten dazu liefert zum Beispiel Javier Quiles del Rio, IT-Leiter des Gesundheitsdienstes in der spanischen Region Galizien. Dort werden derzeit alle 14 öffentlichen Krankenhäuser mit Spracherkennung ausgestattet“, so HealthTech Wire. „In einem Krankenhaus mit 1.200 Betten hat sich durch die Spracherkennung die Zeit bis zur Erstellung eines endgültigen radiologischen Befundes von knapp zwei Tagen auf einen halben Tag reduziert“, erläutert Quiles del Rio.

Die Vorteile einer automatisierten Dokumentation bestätigt der Radiologe Dr. Robert Kierse vom Institut für Röntgendiagnostik und Nuklearmedizin am Klinikum Neuperlach: „Der ganze Prozess der Dokumentenerstellung mit Diktat auf Band, Transkription im Schreibbüro oder Korrektur konnte von sieben Schritten auf nur drei Schritte reduziert werden“, so Kierse gegenüber dem CIO-Magazin. Auf diese Weise werden nicht nur Kosten gespart, der Patient könne durch die beschleunigte Erstellung des Befundes auch schneller behandelt werden. Mittlerweile werden in Neuperlach 90 Prozent aller radiologischen Dokumente mit Online-Spracherkennung erstellt, die übrigen zehn Prozent mit Offline-Spracherkennung.

Das intelligente Heim - Projekte des Bundesfamilienministeirums
Das intelligente Heim - Projekte des Bundesfamilienministeriums
Auch das Pflegeheim „Im Münchfeld“ des Arbeiter Samariter Bundes (ASB) in Mainz sammelte positive Erfahrungen in einem Pilotprojekt. Über eine intelligente Vernetzung von Hard- und Software sollen die Pflegeprozesse optimiert werden. Das umfasst die Software OPAS Sozial und moderne Spracherkennungstechnologien. Die technische Basis der in diesem Pilotprojekt entwickelten Lösung, die mittels Telefon und Sprache eine strukturierte und zugleich individuelle Dokumentation der Pflege ermöglicht, bildet eine modulare, integrierte Informations- und Telekommunikations-Plattform von Aastra-DeTeWe. Sie umfasst einen Kommunikations-Server sowie die neuesten Versionen der Kommunikationslösungen für stationäre Pflege und Betreutes Wohnen: Aastra Voice Portal für die Spracherkennung und die OPAS Sozial Software-Lösung für die stationäre Pflege.

Die Dokumentation mittels Spracherkennung erfolgt häufig im Bewohnerzimmer oder direkt im Anschluss an die Pflegeleistung. Der Anteil des Pflegepersonals, der so vorgeht, ist deutlich gestiegen. So geben knapp 90 Prozent zu Protokoll, dass die Lösung leicht bedienbar sei und rund 80 Prozent der Umfrageteilnehmer ziehen die EDV-gestützte Pflegedokumentation mit OPAS Sozial einer Papierbasierten Dokumentation vor.

Zusätzlich hierzu wurde in einem Überwachungsaudit der Einrichtung im Münchfeld von 2008 zur Zertifizierung nach DIN ISO 9001:2000 von den Auditoren festgehalten, dass die im Rahmen des Modellprojekts modifzierte Pflegedokumentation einen nachvollziehbaren Fortschritt im Hinblick auf Vereinfachung, Zeitersparnis und Erhöhrung der Zuverlässigkeit in der Dokumentation darstellt. Die digitale Sprachverarbeitung und insbesondere die Spracherkennung könnten auch dazu beitragen, Kliniken den Umstieg von der Papierdokumentation auf elektronische Patientenakten zu erleichtern.

„Im Zusammenhang mit elektronischen Patientenakten ist Spracherkennung für mich ein strategisches Werkzeug. Spracherkennung hilft uns dabei, die Digitalisierung umzusetzen, weil es ein schnelles und einfaches Verfahren ist, elektronische Dokumente zu erstellen“, betont Quiles del Rio. Auch hier hat er Zahlen aus Spanien parat: In radiologischen Abteilungen mit Spracherkennung liegt die Quote der Befunde, die elektronisch verfügbar gemacht werden, bei mehr als 90 Prozent. Einrichtungen ohne Spracherkennung kommen nur auf die Hälfte.

My voice is my password: Weg mit den verfluchten PINs, TANs und Passwörtern

Hier bin ich Mensch, hier kann ich warten
Hier bin ich Mensch, hier kann ich warten

Mehr Sicherheit, geringere Kosten, schnellere Abfertigung: Von biometrischen Passkontrollen erhoffen sich Flughäfen und IT-Konzerne gute Geschäfte. Das berichtet die Financial Times Deuschland (FTD). Ein Scanner für den Reisepass, einer für Fingerabdrücke, eine Kameras, um Fotos zu machen, die ein Computer mit dem im Pass vergleicht. Glastüren, die sich öffnen, wenn alles seine Richtigkeit hat. So sieht das vom Beratungshaus Accenture entwickelte Zukunftsszenario für den Einsatz von biometrischen Systemen aus. „Jährlich passieren knapp 800 Millionen Reisende Kontrollstellen in der EU. Gegenüber der herkömmlichen Ausweiskontrolle, die mit etwas 3,68 Dollar pro Person zu Buche schlägt, kostet eine automatisierte nur noch 0,16 Dollar, rechnet der internationale Dachverband der Fluggesellschaften IATA vor“, so die FTD. Auch die Warteschlangen vor den Aberfertigungsschaltern könnten schrumpfen und zu einem sinkenden Raumbedarf beitragen. Freiwerdende Flächen ließen sich verpachten und neue Terminals benötigen weniger Platz.

HIS MASTER'S VOICE
HIS MASTER’S VOICE

Vorteile sehen Experten auch bei sprachbiometrischen Verfahren. Das Wuchern von Karten und Identitäten wird zunehmen als lästig und widersinnig empfunden, wenn man mehrere Karten ziehen muss, um einen einzigen Prozess durchzuführen, etwa beim Bezahlen im Geschäft mit Kundenkarte und Kreditkarte. „Das Kartenhaus der tausend Egos stürzt spätestens zusammen, wenn das Plastikpaket gestohlen oder verloren wird. Ein besonders fruchtbares Biotop für den Wildwuchs täglich neuer Identitäten ist das Internet, angereichert durch ebenso viele Passwörter“, bemängelt der Systemarchitekt Bruno Weisshaupt, Geschäftsführer von origo.

Erhebungen des Statistischen Bundesamtes zufolge muss sich jeder Bundesbürger im Schnitt rund sechs so genannte Pins merken. Der Datenschutzbeauftragte der Bundesregierung sieht die Grenzen der Merkfähigkeit bereits erreicht. Im Extremfall werde die Geheimzahl sogar schon auf die EC-Karte geschrieben, damit man sie beim Abheben am Geldautomaten gleich zur Hand hat. „Mit der Einführung von weiteren Verfahren wie dem elektronischen Personalausweis, ELENA und der elektronischen Gesundheitskarte wird die Zahl der zu merkenden PINs und Passwörter noch steigen. Ich selbst halte eine PIN-Anzahl von zwölf pro Bundesbürger für nicht unrealistisch“, so Peter Schaar. Nach einer Studie des Spracherkennungs-Spezialisten Nuance vergisst in Deutschland mittlerweile mehr als jeder zweite Befragte wichtige Passwörter oder PINs.

Mit dem Einsatz von so genannten Voice Prints könnte man das schnell ändern. „Sprachbiometrische Verfahren basieren auf der individuellen Beschaffenheit der menschlichen Stimme: Der komplexe Aufbau der Sprechorgane sorgt dafür, dass jede Stimme einzigartig ist, und Menschen daher anhand ihrer Stimme eindeutig unterscheidbar sind. Die Sprechorgane, also Stimmbänder, Mundhöhle, Kehle, Nase, Kiefer und Gaumen mit der individuellen Anordnung und Beschaffenheit der Muskeln des Mund es und Rachenraumes sind bei jedem Menschen unterschiedlich. Sie ermöglichen es, in Verbindung mit der angelernten Sprechweise, einen Menschen anhand seiner Stimme eindeutig zu identifizieren“, weiß Michael-Maria Bommer, Nuance-General Manager für Deutschland, Österreich und Schweiz.

Entscheidend sei, dass bei der Sprachbiometrie nicht einfach ein Vergleich zwischen einem aufgezeichneten Wort oder Satz und dem „Iive“ ausgesprochenen Wort oder Satz hergestellt werde. Vielmehr gehe es um die einzigartigen Charakteristika der Stimme, wie sie sich aus dem individuellen Sprechapparat und der individuellen Sprechweise ergeben. „Bewertet das System die Übereinstimmung zwischen dem aktuellen Stimmmuster und dem gespeicherten Sprachabdruck als zureichend hoch, wird der Zugriff gestattet. Es handelt sich also um eine robuste Technologie, die die Charakteristika einer Stimme auch bei Erkältung oder anderen Veränderungen der Stimme erkennt, eben weil es sich nicht um einen 1 zu 1-Vergleich von gespeicherter und gesprochener Sprache handelt“, erläutert Bommer. Der Schutz persönlicher Daten und Maßnahmen gegen den Identitätsdiebstahl seien der Hauptgrund für alternative Authentifizierungsverfahren, sagt Unternehmensberater Thomas Wind von TellSell Consulting. Wenn ein namhafter Player mit einer Sprachbiometrie-Anwendung für Konsumenten auf den Markt gehe, dann werden andere sehr schnell folgen. „Ein Massenmarkt entsteht, wenn sich ein oder mehrere Anbieter für Zertifizierungsdienste im Sinne eines TrustCenterKonzeptes etablieren würden. Ein Kunde könnte dann mit einer einmaligen Registrierung diesen Dienst bei mehreren teilnehmenden Unternehmen oder Behörden nutzen. ‚My voice is my password’ könnte dann Common Sense werden”, prognostiziert Wind.

Mit Sprachportalen Kundenwünsche antizipieren – Automatische Assistenzsysteme für Call Center

Das freenet-Kundenserviceportal wird von Call Center-Fachleuten und Wissenschaftlern als vorbildlich gewertet: So fragt das System nach der Authentifizierung des Kunden über 50 verschiedene Kundendaten in den angebundenen Backendsystemen ab, um einen möglichen Grund für den jeweiligen Anruf zu ermitteln. „Auch der technische Kundenassistent ist personalisiert und wird von der Hardware und dem Vertrag des Kunden beeinflusst. Während des Dialogs können automatisch E-Mails oder SMS erzeugt werden, die dem Kunden umfangreichere technische Dokumente an die Hand geben. Überdies kann während des Dialogs auf Wunsch ein Live-Check initialisiert werden, der den Status der DSL-Verbindung überprüft“, urteilt Professor Wolfgang Wahlster, Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI). Die Entwicklung des Systems wurde von SemanticEdge umgesetzt und wird auf der Call Center World in Berlin präsentiert.

„Wir haben im Vorfeld viele Sprachportale und Portalansätze betrachtet und uns dabei auch in anderen Branchen umgesehen. Es gibt zum Beispiel einige ganz hervorragende Bankenportale. Dabei gefiel uns der sehr robuste und offene natürlich-sprachliche Einstieg. Allerdings gibt es bei uns im Unterschied zu den Banken keine so häufig genutzten Standardservices. Wir brauchten also eine eigene Lösung. Die entscheidende Idee dazu kam dann von SemanticEdge“, so Ole Wegner, Mitglied der freenet-Geschäftsführung. Das Berliner Unternehmen schlug vor, den Anrufer gleich zu Beginn des Dialoges zu authentifizieren, um sämtliche in den Backend-Systemen verfügbaren Informationen für eine differenzierte Behandlung der Anrufe nutzen zu können. „Das Prinzip der personalisierten Dialoge leuchtete allen sofort ein. Besser noch: Wir hatten sofort das entscheidende Differenzierungsmerkmal zu allen anderen derzeit im Markt eingesetzten Sprachportalen“, erklärt Wegner.

In Zeiten eines hohen Anrufaufkommens könne sich die Bearbeitungszeit eingehender E-Mails und Briefe verlängern. Als Folge dessen könnten Kunden anrufen, um sich beim Kundenservice nach dem Bearbeitungsstand ihrer Anfrage zu erkundigen. „Durch die Koppelung des Sprachdialogsystems mit dem E-Mail-Management-System erhält der Kunde in unserem neuen Portal in einem solchen Fall gleich nach der Authentifizierung einen Hinweis darüber, wann die E-Mail eingegangen ist und wann mit einer Antwort von freenet zu rechnen ist. Unsere Erfahrung zeigt: Mehr als die Hälfte der Anrufer sind mit einer solchen Auskunft vollständig zufrieden“, sagt Wegner.

Ein anderes Beispiel sei der personalisierte Dialog bei Passwort-Problemen: Kunden haben ihren Benutzernamen oder ihr Passwort geändert oder vergessen und können sich nicht mehr einwählen. „Was machen wir in diesem Fall? Über unsere Backend-Systeme registrieren wir auch die vergeblichen Einwahlversuche, sprechen den betroffenen Anrufer gleich zu Beginn des Dialoges darauf an und helfen ihm mit der erneuten Übermittlung von Benutzername und PIN an die uns vorliegenden Kontaktdaten. Insgesamt wertet das Sprachportal in Sekunden-Bruchteilen mehr als 50 verschiedene Informationen aus verschiedenen Backend-Systemen aus und kann dadurch schon heute etwa jeden fünften Anruf vorausahnen. In Zukunft ist da sicherlich sogar noch mehr drin“, ist sich Wegner sicher.

In der aktuellen Version des Portals könnten rund 20 bis 30 Prozent der Anrufgründe antizipiert werden. „In den einzelnen zum Teil auch hoch komplexen Prozessen haben wir Automationsgrade mit bis zu über 90 Prozent. Insgesamt haben wir bereits mit der ersten Version des Sprachportals unsere Erwartungen deutlich übertroffen. Hinzu kommt, dass die Anzahl der automatisch erzeugten Trouble-Tickets durch die ausgefeilten, personalisierten Dialoge drastisch gesunken ist. Zudem sind wir gerade dabei, auch die Prozesse im anschließenden Mensch-Mensch-Dialog zu optimieren. Durch die gezieltere Vorqualifizierung der Anrufer bei der Weiterleitung an unsere Kundenservicemitarbeiter aus verschiedenen Stellen des Dialoges werden wir unsere Prozesse und Skills noch weiter optimieren können“, resümiert Wegner. Eine Meldung von NeueNachricht. Für den Inhalt ist NeueNachricht verantwortlich.