Google, Android, und das Wirrwarr bei der Spracherkennung

Die Sprachsuche ist der Knüller und ändert unseren Umgang mit Smartphones

Spracherkennung ist „das nächste große Ding“. Am Windows-PC funktioniert sie sehr ordentlich, und nun kommt Spracherkennung aufs Smartphone. Wer sich mit dem Android-Betriebssystem beschäftigt, stellt schnell fest, dass unterschiedliche Spracherkenner im Einsatz sind. Hier ein Blick auf die einzelnen Apps und ihre Leistungsfähigkeit. Das Ganze habe ich mit dem neuen Google Nexus S und Android 2.3 ausprobiert.

Ein kleiner Hinweis vorab: Man achte auf die richtige Einstellung der Eingabesprache. Und zwar unter Einstellungen, Spracheingabe- und ausgabe, Spracherkennungseinstellungen und Sprache. Deutsch ist zweimal vorhanden, einmal Standard – Deutsch (Deutschland) und etwas tiefer Deutsch (Deutschland).

1. Sprachwahl. Nach dem Start kommt „Jetzt sprechen“, und es sind einige Hinweise zu sehen, was man sagen kann, etwa „Max Schmidt anrufen“. Man kann auf diese Weise auch Programme öffnen. Allerdings ist die Erkennungsleistung in deutscher Sprache  so schlecht, dass bei meinen Experimenten nicht einmal ein einziges Kommando richtig erkannt wurde.  Wenn man als Erkennungssprache „Englisch“ einstellt, funktioniert’s etwas besser, aber alles andere als perfekt. Nach meiner Einschätzung findet eine Erkennung lokal auf dem Gerät statt. Wer mit Apples iPhone oder Nokia-Geräten vergleicht, wird hier die Schulnote „mangelhaft“ vergeben.

2. Spracherkennung beim Schreiben von SMS und E-Mail. Im Eingabefeld auf das kleine Mikrofonsymbol der virtuellen Tastatur tippen, „jetzt sprechen“ erscheint — und loslegen. Wenn man fertig ist, aufhören. Die Audiodatei wird auf Google-Servern transkribiert, also nicht lokal. Zu Hause im W-Lan ist das kein Problem, aber unterwegs muss man auf Datenkosten achten und kann schon bei kurzen Unterbrechungen der Datenverbindung sein Diktat verlieren.

Die Erkennungsleistung ist ganz ordentlich, bei deutscher Sprache werden allerdings Satzzeichen nicht erkannt, bei englischen Diktaten durchaus.  Das Problem hier: Man weiß nicht, wie lange man sprechen kann. Und wenn man zu lange spricht, gibt es eine Fehlermeldung und man kann von vorn anfangen. Wenn dieser „Serverfehler“ nicht wäre, würde ich die Schulnote „befriedigend“ geben.

3. Sprachsuche: Dieser Erkenner ist der Knüller. Am besten gleich auf die Startseite legen. Das Programm erfüllt nur eine Aufgabe: gesprochenen Text zu transkribieren und an den Browser übergeben. Die Resultate sind atemraubend gut.

Einige Beispiele, was 100% richtig bei mir erkannt wurde:

„Veranstaltungen heute in Bad Homburg oder Kronberg oder Taunusstein“

„Wikipedia VW Käfer“.

„Das Kinoprogramm in Ober-Mörlen übermorgen“

„Wirtschaftsredaktion der Frankfurter Allgemeinen Zeitung“.

Ist sich der Erkenner nicht ganz sicher, blendet er verschiedene Alternativen ein, und man kann mit einem Fingertipp auswählen. Auch hier wird auf Google-Servern transkribiert, Nebenwirkungen und Einschränkungen siehe oben.

Diese Sprachsuche ändert den Umgang mit dem Smartphone. Es wird zur Auskunftsmaschine: Ein Handgriff, eine Frage diktieren, und schon hat man die Antworten aus dem Internet auf seinem Display.

4. Google Übersetzer: Diese App arbeitet mit der Erkennungsmaschine von 2., siehe oben, und übersetzt das Erkannte gleich in andere Sprachen, gegebenenfalls auch mit einer Sprachausgabe (Text wird mit einer synthetischen Stimme vorgesprochen). Kann sehr cool und nützlich im Auslandsurlaub sein, aber man sollte auf die Datenkosten achten. Einige Screenshots hier bei TechCrunch.

Ausblick:

Ein guter Spracherkenner benötigt ein gewisses Training und persönliche Nutzerprofile. Die Software muss sich an die Eigenheiten des Sprechers gewöhnen. Bislang ist die Google-Spracherkennung sprecherunabhängig, und sie lernt nichts dazu. Mit einem Nutzerprofil lässt sich die Erkennungsleistung signifikant erhöhen. Google beginnt deshalb in den Vereinigten Staaten bei der amerikanischen Spracherkennung mit dem Anlegen solcher Profile. Das alles hat nichts mit Datensammelwut zu tun, es geht nur um die Erkennungsleistung.

Spannend dürfte Spracherkennung mit Android werden, wenn die ersten Nuance-Apps verfügbar sind. Nuance ist der Marktführer in diesem Bereich und Hersteller von Dragon NaturallySpeaking. Die Nuance-App fürs iPhone und iPad („Dragon Dictation“) ist deutlich leistungsfähiger als die aktuelle Google-Spracherkennung.

10 Antworten auf „Google, Android, und das Wirrwarr bei der Spracherkennung“

  1. Hallo,
    gibt es mittlerweile eine brauchbare Spracherkennungsapp, die ein Diktiergerät ersetzt – also zum Aufsprechen längerer Texte samt Möglichkeit, den Text unkompliziert auf den PC z.B,. in Word zu übertragen?

  2. Hi
    ich habe mir ein Smartphon der Firma Simvalley SPX-5 UMTS gekauft
    Das Betriebssystem ist Android 2.3
    Können Sie mir eine gute App für Übersetzungen in meheren Sprachen
    empfehlen, die auch funktioniert.

    Gruß: A. Bachert

  3. In der Spracherkennung in Android fehlt seit langem die Erkennung von Satzzeichen wie Punkt, Komma, Rufzeichen – obwohl das laut Hilfetext gehen müsste. Es gibt einen Bugreport bei Google:

    http://code.google.com/p/android/issues/detail?id=39510

    Je mehr Leute dort posten bzw. sich als „auch betroffene“ melden, desto schneller kriegen wir wohl eine Lösung für dieses nervige Problem. Also: Im Bugreport mit Google-Account einloggen und links oben das Sternchen klicken. 26 Betroffene zählt der Counter derzeit.

    Ich cross-poste das gerade durch verschiedene Foren/Threads zu diesem Thema.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.