Test: Dragon NaturallySpeaking 12 von Nuance

„Neuer Termin mit Martin nächste Woche Dienstag 12 Uhr“: Schon dieser eine Satz demonstriert beispielhaft die Leistungsfähigkeit einer modernen Spracherkennung. Er ist in weniger als fünf Sekunden diktiert und führt nahezu unmittelbar zu einem Eintrag im elektronischen Kalender. Ohne Spracherkennung dauert es immer länger: Das Starten des Terminkalenders, die Suche des passenden Datums und das Eintippen der Details ist viel mühseliger, als seinem Smartphone neun Wörter vorzusprechen.

Ihre frappierende Leichtigkeit hat Apples Sprachassistentin Siri so populär gemacht. Aber sie ist ja auch mehr als eine Spracherkennung, die Gesprochenes in Schriftliches überführt. Siri nimmt zusätzlich eine semantische Analyse des Inhalts vor, und anhand bestimmter Schlüsselbegriffe wie „Termin“ erfolgt automatisch die Umsetzung in Aktionen, wie der Eintrag im Terminkalender oder das Abrufen des Wetterberichts.

Siri läuft derzeit nur auf dem iPhone 4S. Wer jedoch das iPad 3 oder auf dem Mac-Rechner das aktuelle Apple-Betriebssystem Mountain Lion einsetzt, kann zumindest die Diktatfunktion, also die reine Spracherkennung, ebenfalls verwenden. Wo immer der Cursor gerade steht: Man diktiert, der Audio-Schnipsel wird via Internet auf Server von Apple übertragen, dort transkribiert, und der Text kommt retour. Apple verwendet für seine Spracherkennung die Technik des amerikanischen Herstellers Nuance, der hier seit mehr als zehn Jahren Marktführer ist. Der Charme dieser Lösung besteht darin, dass sie geradezu unmittelbar zur Verfügung steht. Man muss keine Software installieren, kein Benutzerprofil anlegen, nichts neu lernen, sondern kann einfach loslegen. Die Erkennungsrate ist sehr hoch, die Ergebnisse sind verblüffend gut.

Vergleicht man die drei Apple-Plattformen, ist die Performance nahezu identisch. Der Mac-Rechner mit flinken Prozessoren ist dem iPad 3 keineswegs überlegen. Auf allen drei Systemen sind auch ähnliche Fehler und Einschränkungen zu beobachten. Zum Beispiel die falsche Großschreibung, wenn man im Satz innegehalten hat. Und die Restriktionen sind ebenfalls nicht zu übersehen: Der Erkenner erlaubt nicht das Anlernen oder Training ihm unbekannter Begriffe, er versteht kein Fachvokabular, und man kann nur abschnittweise diktieren, weil ja jeder Satz oder Halbsatz nach Amerika geschickt wird, was nicht jeder goutiert.

Für professionelles Diktieren längerer Texte oder die Umsetzung von Diktaten, die zuvor aufgenommen wurden, ist das Apple-System ungeeignet. Es wird nur dann besser, wenn Apple die Algorithmen auf seinen Servern verbessert. In Amerika beklagen sich sogar viele Nutzer, dass Siri in den vergangenen Monaten schlechter geworden sei. Man wird also mit diesem semiprofessionellen System auf den Geschmack gebracht. Schnell gibt es Appetit auf mehr, und dann ist eine Software gefragt, die auf dem eigenen PC läuft, ein umfangreiches und ergänzbares Wörterbuch mitbringt, für bestimmte Berufsgruppen ein Fachvokabular und vieles andere mehr.

Wer Höchstleistungen sucht, benötigt einen aktuellen Rechner

Wer jedoch nach ein paar Runden im Porsche 911 die Leistung eines Formel-1-Boliden sucht, kommt um ein Fahrertraining nicht herum. Zum Glück hat Nuance bei seiner Windows-Software Dragon Naturally Speaking in den vergangenen Jahren viel getan, um die Hürden des Einstiegs zu senken. Dragon ist der Maßstab und die Referenz, es gibt keine andere Software mit vergleichbarer Leistungsfähigkeit, man mag diese Monopolstellung bedauern.

Mit der neuen Version 12, die seit Ende August im Handel ist, beschränkt sich die Inbetriebnahme nach der Installation auf ein fünfminütiges Diktat, mit dem der Erkenner den individuellen Sprachstil analysiert. Die viel größere Hürde im Alltagseinsatz ist die Fülle der Möglichkeiten und Optionen. Mit dem Drachen kann man ein Windows-System durchgängig mit Sprache steuern, eine Outlook-E-Mail verfassen oder Word-Kommandos aufrufen. Das alles will aber geübt sein – ungeachtet der zahlreichen Hilfestellungen.

Der neue Drachen bringt ein abermals verbessertes akustisches Modell mit, das nun Best Match V heißt. Dieses verlangt einen Mehrkernprozessor und mindestens 4 Gigabyte Arbeitsspeicher. Wir probierten Dragon 12 mit einem älteren Core-2-Duo-PC und zwei Gigabyte Speicher. Hier wurde uns Best Match IV empfohlen, wir nahmen trotzdem das neue Akustikmodell – und die Arbeitsgeschwindigkeit brach deutlich ein. Wer Höchstleistungen sucht, benötigt also einen aktuellen Rechner. Mit dem Core-i5 und 8 Gigabyte Arbeitsspeicher hatten wir keine Probleme. Das neue Best-Match-Modell soll um bis zu 18 Prozent verbesserte Erkennungsleistung bieten, sagt das Marketing von Nuance, eine saloppe Formulierung, die man jedoch so nicht stehen lassen kann.

Genauigkeit bei bis zu 99 Prozent

Berücksichtigt man, dass eine Spracherkennung nur jene Begriffe fehlerfrei umsetzen kann, die in ihrem Vokabular gespeichert sind, hängt die Beurteilung von den Texten und den Inhalten ab. Eine prägnante Zusammenfassung der Art „98 Prozent Genauigkeit“ ist also unsinnig. Ein Arzt, Anwalt oder Gutachter, der für seine Diktate ein begrenztes Fachvokabular verwendet und dies sinnvollerweise gleich mit Dragon dazukauft, erreicht spielend 99 Prozent und mehr. Ein Dragon-Nutzer mit einem reichhaltigen und ungewohnten Vokabular, sagen wir ein Schriftsteller oder Journalist, wird darunter liegen. Er wird vermutlich eigene Ad-hoc-Begriffe (wie diesen hier) verwenden und vielleicht nur einmal und dann nie wieder. Kein Wörterbuch kann da mithalten.

Wie gut die Erkennungsleistung von Dragon 12 im Vergleich mit der Vorgängerversion ist, haben wir also mit unseren eigenen Diktaten ermittelt, das ist eine subjektive Komponente im Test. Aber wir suchten reproduzierbare Ergebnisse. Deshalb wurde aus Hunderten von Diktiergerät-Aufzeichnungen im DSS-Pro-Format eine repräsentative Auswahl erstellt. Neben kurzen, knappen E-Mails auch längere mit privatem Inhalt, Nachrichtenmeldungen, das Protokoll einer Testfahrt im Auto, und spaßeshalber ein „abdiktierter“ wissenschaftlicher Aufsatz aus der DDR-Geschichtsschreibung in einer aus heutiger Sicht inakzeptablen Sprache.

Dragon Naturally Speaking 12: Bis in die kleinsten Verästelungen hinein anpassbar (Foto Spehr)

Ein und dieselbe Diktatdatei ließen wir der Reihe nach erkennen, und zwar mit der alten und der neuen Version, so wie sie der Nutzer nach der Installation vorfindet (also ohne benutzerspezifische Anpassungen). Die Ergebnisse: Etwa jeder zehnte Fehler wurde ausgemerzt, die Genauigkeit liegt – je nach Text – bei bis zu 99 Prozent.

Die „Premium“-Variante sollte es mindestens sein

Vor zwei Jahren konnten wir bei der Vorstellung der Version 11 festhalten, dass die Fehlerrate halbiert wurde. Der Fortschritt schreitet also um so langsamer voran, je perfekter die Erkennung wird. Die typischen Probleme sind übrigens gleich geblieben: Groß- und Kleinschreibung, Getrennt- und Zusammenschreibung, Abkürzungen, Produkt- und Eigennamen bereiten noch immer Kopfzerbrechen. Aber mit der „richtigen“ Nutzung der Korrekturbefehle und zunehmender Adaption an das Nutzervokabular verschwindet mancher Fehler. Und mit ein bisschen Erfahrung kennt man im Laufe der Zeit die Stolpersteine und wird dann beispielsweise „ist vom Feinsten“ dahingehend diktieren, dass man dem „Feinsten“ das Kommando „groß“ voranstellt.

Eine häufige Fehlerklasse wurde indes ausgemerzt: Mit einer Option kann man Personalpronomen der 2. Person („Du“, „Dich“) immer groß schreiben lassen und mit einer weiteren kontextabhängig auch die der 3. Person („Sie“, „Ihnen“). Das ist ebenso ein Gewinn wie „Smart Format“, eine Funktion, die sich einmalige Korrekturen einer Schreibweise („Kilogramm“ statt „kg“) permanent merkt. Etliche kleinere Verbesserungen betreffen ferner die Steuerung eines E-Mail-Systems im Browserfenster, das zu diesem Zweck mit einer Erweiterung versehen sein muss.

Wie gehabt läuft Dragon 12 selbst mit Windows XP; zwei Gigabyte Arbeitsspeicher sind indes Pflicht. Weiterlesen auf FAZnet

Eine Antwort auf „Test: Dragon NaturallySpeaking 12 von Nuance“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.