Test: Spracherkennung Dragon Professional Individual 15 von Nuance

Nuance bringt die nächste Version seiner Spracherkennungssoftware Dragon Naturally Speaking an den Start. Sie ist für den professionellen Einsatz gedacht. Wir haben mit ihr gesprochen.

Fast fehlerfrei: Spracherkennung Dragon 15 von Nuance. Foto Hersteller
Fast fehlerfrei: Spracherkennung Dragon 15 von Nuance. Foto Hersteller

Wir hatten es unlängst in einem längeren Marktüberblick richtig vorausgesagt: Der amerikanische Hersteller Nuance bringt die nächste Version seiner Spracherkennungssoftware Dragon Naturally Speaking an den Start. Sie ist für den professionellen Einsatz gedacht. Im Unterschied zu Siri und ähnlichen Smartphone-Kollegen arbeitet ein solches Programm ohne Internetverbindung und ist lernfähig. Es lässt sich nicht nur um das eigene Vokabular ergänzen, sondern auch um die Eigenheiten der jeweils individuellen Aussprache. Wer mit einer solchen Software richtig umgeht, erhält von Tag zu Tag bessere Ergebnisse, weil beispielsweise Eigennamen oder oft verwendete Spezialbegriffe im Vokabular landen. Nun ist tatsächlich die neue Version 15 des Drachens im Handel, wir probierten die Variante Professional Individual für 400 Euro aus. Wer sparen will, warte bis die Premium mit der Kennziffer 15 erhältlich ist. Von der kleinsten Modellvariante Home raten wir indes ab.

Weiterlesen auf FAZnet

Diktieren macht die Texte schön

„How Dictation Software makes us rethink Writing“

Hinter der flapsigen Überschrift steckt ein wichtiger Gedanke: Wie ändert sich unsere Sprache mit der Technik ihrer Erfassung und maschinellen Verarbeitung? Einige Hinweise liefert dieser Wired-Artikel. Wer seine SMS oder E-Mail diktiert, schreibt andere Nachrichten als derjenige, der am PC mit einer Tastatur schreibt. Im besagten Artikel, der sinnigerweise den Begriff „Voice-Writing“ einführt, sind Beispiele aufgezählt.

Nach meinen Erfahrungen und Beobachtungen sind Diktate in einer einfacheren Sprache gefasst, die auf verschachtelte Satzkonstruktionen verzichtet — und vor allem redundanter ist. Meine diktierten E-Mails sind länger als die getippten, häufig auch höflicher. Am PC gilt das Sparsamkeitsprinzip, man optimiert auf Kürze und Klarheit hin. Diktierend bekommt man das in der Regel nicht hin. Man redet weitschweifiger, denkt häufig erst beim Sprechen zu Ende und kommt oft erst nach vielen Anläufen zu einem Ziel, das man schreibend schneller entdeckt hätte.

Und ein Gedankenexperiment: Wie sähen unsere Texte aus, wenn es die Spracherkennung vor der Textverarbeitung gegeben hätte? Hätte sich die Parsimonie trotzdem durchgesetzt? Oder würden wir wie Goethe, der sämtliche Prosa seinem Schreiber diktierte, noch immer in üppigen Formulierungen und Ornamenten schwelgen?

Clever mit Cloud: Wie die neue Spracherkennung von Nuance funktioniert

Nuance hat heute ein neues Spiel bei der Spracherkennung eröffnet. Der wichtigste Schachzug ist die übergreifende Cloud-Integration. Bislang gibt es zwei Welten: Die Amateurliga derjenigen, die Spracherkennung zum Beispiel auf dem Smartphone verwenden. Und die Profis, die mehr brauchen, etwa die Personalisierung des Vokabulars, insbesondere bei Eigennamen und Fachbegriffen. Mobil und stationär gingen bislang nicht zusammen. Wer mit dem Schlachtschiff Dragon NaturallySpeaking für Windows unterwegs ist, konnte nicht eben schnell seine persönlichen Dinge auf eine kompakte Smartphone-App umladen.

Und nun der Kniff: Nuance bringt eine mobile Lösung namens Dragon Anywhere, die ihr Vokabular und weitere Nutzerdaten mit einem neuen Dragon Professional Individual synchronisiert. Im Unterschied zu bisherigen Smartphone-Apps lernt diese nun dazu, sie erlaubt mobiles Diktieren auf dem Niveau der Desktop-Lösung.

Für den Desktop wiederum gibt es neu das besagte Dragon Professional Individual. Der Preis von 400 Euro deutet an, dass diese Version zwischen der weiterhin erhältlichen Premium-Variante und der teuren (800 Euro und mehr) Professional angesiedelt ist. Testbericht in der FAZ folgt ab Ende September.

P.S.: Weitere Details auch bei Dr. Stephan Küpper

Spracherkennung Dragon NaturallySpeaking 13 für Windows

Im August kommt die Windows-Spracherkennung Dragon Naturally Speaking in der neuen Version 13 in den Handel, und zwar zunächst als „Premium“-Variante, mit der auch anspruchsvolle Nutzer gut arbeiten können. „Professional“ und „Legal“ bleiben vorerst bei der 12.5.

Dragon NaturallySpeaking 13 von Nuance (Foto Hersteller)
Dragon NaturallySpeaking 13 von Nuance (Foto Hersteller)

Was muss man wissen?

  • Erwartungsgemäß wird von Hersteller Nuance kommuniziert, die neue Version erkenne besser (plus 13 Prozent) und arbeite schneller.
  • Sie unterstützt eingebaute Laptop-Mikrofone und die Mikrofon-Einrichtung ist nun deutlich einfacher. Alle zur Verfügung stehenden Mikros werden mitsamt Pegel aufgeführt.
  • Der Einstieg mit dem anfänglichen Sprachtraining ist noch einfacher geworden, die Vorlesezeit für den Trainingstext wurde von 4 auf 2 Minuten halbiert.
  • Es gibt eine neue Menüleiste in einem minimalistischen Design, die bei Nichtgebrauch weniger Fläche auf dem Desktop einnimmt.
  • Nach wie vor kommt Bestmatch V zum Einsatz, die Hardwarevoraussetzungen bleiben gleich (2 GB Speicher beim 32-Bit-Betriebssystem, 4 GB beim 64er). Windows XP wird nicht mehr unterstützt.
  • Die Premium kostet 170 Euro.
  • Das Arbeiten auf Web-Seiten im Browser wurde deutlich verbessert, es wird nun der WAI-ARIA-Standard für die Bildschirmnavigation unterstützt. Die diesbezüglichen Fortschritte auf beliebigen Seiten sind sofort sichtbar.
  • Mein erstes Fazit: Das neue Design gefällt, und die Erkennungsleistung mit einem frisch angelegten Profil war spektakulär, obwohl das eingebaute Mikro eines Laptops verwendet wurde. Spaßeshalber wurde der Sprecher gewechselt, auch dann blieb die Erkennungsleistung erstklassig. Man fragt sich, wann das sprecherunabhängige Profil kommt. Die neuen Möglichkeiten beim Einsatz im Web-Browser überzeugten ebenfalls sofort. Ich freue mich auf mein Testmuster.

Was man zu Nuance, Samsung und Apple wissen muss – Spracherkennung

Spracherkennung ist ein kompliziertes und aufwendiges Geschäft. Alles, was derzeit gut, sicher und zuverlässig funktioniert, ist von Nuance. Dazu gehört die Windows-Spracherkennung Dragon Naturally Speaking, das Spracherkennungsmodul von Apples Siri, die Spracherkennung im Auto in so gut wie allen besseren Systemen (Audi, BMW, Mercedes-Benz).

Spracherkennung, die nicht funktioniert, ist nicht von Nuance. Das war zum Beispiel die erste Version von Samsungs S-Voice auf dem Galaxy S3 im Jahr 2012. Danach hat Nuance die Spracherkennung für Samsung zugeliefert.

Es gibt ein paar Programme, die bei Nuance nicht so gut laufen (etwa Dragon Dictate für den Mac), aber das hat nichts mit der Spracherkennung zu tun, sondern mit der Systemintegration.

Würde Samsung tatsächlich Nuance kaufen, hätte Apple ein riesiges Problem.

Überblicksartikel von mir zu Dragon 12 für Windows, Siri und der Apple-Spracherkennung

Kostenpflichtig: Mein Artikel „Jenseits von Siri. Spracherkennung und Diktieren am Mac“ aus „Mac & i“.

 

Also wird lieber ein Reitpferd gekauft

Bei diesem Experiment ging es mir darum, die Lagesensoren des Philips-Diktiergerätes DPM 8000 auszuprobieren. Wie ändert sich die Akustik und wie ändert sich die Erkennungsgenauigkeit der Spracherkennung, wenn man das Gerät während des Diktats auf den Tisch legt, um beispielsweise in Akten zu blättern oder in der E-Mail zu lesen?

Also habe ich kurzerhand eine meiner Glossen abdiktiert und das Gerät dabei unterschiedlich positioniert. Man vergleiche das Original auf FAZ.net mit der Transkription unten durch Dragon Naturally Speaking 12.5. Ich habe hier nichts korrigiert. Man sieht: Tablet PC schreiben wir bei der FAZ anders, den „Ergänzungsstrich links“ kann ich mir nie merken (Apple- und Google-Betriebssystem), nach dem Doppelpunkt schreiben wir bei der FAZ groß, „beim Hochfahren“ habe ich von vornherein als „beim groß Hochfahren“ diktiert, und so weiter und so fort. Der Brüller ist jedoch das Reitpferd … Das Experiment zeigt, dass sich Dragon 12 unglaublich gut auf unterschiedliche „Akustikräume“ einlässt, denn mit dem Ablegen des Geräts ist die Mikrofoncharakteristik eine ganz andere. Ach ja, man sieht auch, wie gut Spracherkennung mittlerweile funktioniert. Nicht die Technik limitiert, es ist meist der Nutzer.

 

Tablet gewinnt

In den ersten drei Monaten des Jahres wurden in Deutschland genauso viele Tablet-PC wie Notebooks gekauft, nämlich rund 1,2 Millionen. Die Verkaufszahlen für herkömmliche Rechner gehen seit Monaten zurück, die Umsätze mit Tablet-PC wachsen hingegen rasch. Deutschland folgt damit internationalen Tendenzen: in diesem Jahr werden nach den Prognosen von IDC in aller Welt mehr Tablet-PC mit Apple und Google-Betriebssystem verkauft als die gewohnten Arbeitsmaschinen.

Diese Entwicklung wundert kaum: es gibt keinen Grund, einen zwei oder drei Jahre alten Rechner zu ersetzen. Seine gefühlte Langsamkeit beim Hochfahren oder Abarbeiten von Standardaufgaben ist in der Regel der Software und nicht veralteter Hardware geschuldet. Also wird lieber ein Reitpferd oder ein Androide gekauft. Man macht nichts verkehrt, und die Flachmänner überzeugen mit ihrer Kinder leichten Bedienung, der langen Akkulaufzeit und mit ihrem tollen Stand-by-Verhalten. Sie sind sofort einsatzbereit. Das alles kann man mit einem Notebook ebenfalls haben, wenn man etwa Windows 8 einsetzt und eine flotte SSD-Festplatte an Bord hat. Aber letztlich geht es auch um die Emotionen. Herzklopfen und Begeisterung stellen sich in der PC-Welt jedoch schon lange nicht mehr ein.

Test: Philips Speech Mike Premium für Spracherkennung

Mit den Eingabemikrofonen für Spracherkennung am PC verhält es sich wie mit Werkzeug des Heimwerkers. Man ist mit der günstigen Massenware aus dem Baumarkt zufrieden, aber sobald ein Profi anrückt, schüttelt er den Kopf. Denn für Dauereinsatz ist andere Qualität gefragt. Wer mit dem neuen Dragon Naturally Speaking 12, das wir hier unlängst vorgestellt haben, privat seine Korrespondenz diktiert, ist mit einem 100-Euro-Mikrofon gut bedient. Vieldiktierende Ärzte und Anwälte halten ihr Gerät jeden Tag stundenlang in der Hand. Dann sind hohe Anforderungen zu erfüllen, nicht nur in Bezug auf Ergonomie und Akustik, sondern auch in der Steuerung mit Funktionstasten.

Diktiermikrofone im professionellen Segment sind die Directrec-Reihe von Olympus und die Speechmikes von Philips. Letztere haben ihr Spracherkennungsportfolio ausgelagert in die „Speech Processing Solutions“, die wiederum der österreichischen Invest AG gehören. Die Marke Philips bleibt jedoch erhalten, und wir haben das neue Speechmike Premium ausprobiert, das jetzt in mehreren Varianten im Handel ist. Das Speechmike ist hübscher geworden, es wirkt hochwertiger, und die Oberfläche ist nun glatt poliert. Das ist nicht allein dem schönen Schein geschuldet, sondern soll dank eines „Pearl Metal“-Zusatzes dafür sorgen, dass Nebengeräusche durch Fingerbewegungen auf der Oberfläche gar nicht erst entstehen. Wie gehabt ist auch das Neue mit einer antimikrobiellen Oberfläche versehen, ein Pluspunkt im Krankenhaus-Einsatz.

Referenzklasse: Philips Speech Mike Premium (Foto Hersteller)

Die wohl wichtigste Verbesserung betrifft die Mikrofontechnik. Hier hat Philips aus dem Vollen geschöpft. Die Mikrofonkapsel ist unter dem Gitter entkoppelt aufgehängt – wie bei einem Studiomikrofon. Der Effekt: deutlich bessere Akustik, weniger Verzerrungen und abermals Reduzierung von Hintergrundgeräuschen. Zwischen Gitter und Mikrofonkapsel befindet sich ein Flies; der Veloursstoff soll Knall- und Zischgeräusche dämpfen, die bei einem dicht am Mund gehaltenen Mikrofon entstehen. Das Speechmike ist zunächst nur mit Tastensteuerung erhältlich und kostet 320 Euro. Es gibt in dieser Ausführung noch keine Schiebeschalter-Variante. Wer sich an dieses Bedienprinzip gewöhnt hat, schaut zwar nicht in die Röhre, bezahlt aber kräftigen Aufschlag, weil er das Mikro mit Barcode-Scanner nehmen muss, das 950 Euro kostet. Das kann es nicht sein.

Nach dem Anschluss des Premium an den PC mit einem USB-Kabel installiert sich der Gerätetreiber unter Windows automatisch. Das Gerät liegt mit Maßen von 17 × 4,5 × 3 Zentimeter gut in der Hand. Die Rückseite mit ihrer geschwungenen Form lässt genug Platz für Zeige- und Mittelfinger, und der Daumen landet geradezu automatisch an der richtigen Stelle, entweder auf der Start-Stopp-Taste oder über dem Schiebeschalter. Dessen Mechanik ist ordentlich, er reagiert präzise. Der Trackball lässt sich in Verbindung mit den neben ihm liegenden Tasten als vollwertiger Maus-Ersatz nutzen, ein schönes Extra: Denn während des Diktats kann man ein paar Windows-Befehle ausführen, ohne das Gerät zu wechseln. Die Rollkugel ist sogar als Taste nutzbar, und die Kugel des Trackballs besteht jetzt aus Edelstahl. Ihre Bewegungen werden genau mit einem Laserscanner erfasst.

Das beiliegende „Device Control Center“ (DCC) fungiert als Anlaufstelle für die Konfiguration, wenn man mit der Spracherkennung Dragon Naturally Speaking von Nuance unter Windows arbeitet. Wie bei Philips nicht anders zu erwarten: Das Speechmike arbeitet aus dem Stand heraus einwandfrei mit dem Drachen zusammen. Das heißt unter anderem: Der Schiebeschalter regelt Aufnahme und Pause, eine rote Leuchtdiode signalisiert den Aufnahmebetrieb, es lässt sich im Diktat zurückspulen, und die zahlreichen Funktionstasten des Speechmike sind ab Werk mit sinnvollen und naheliegenden Kommandos belegt.

Wer noch mehr Raffinesse sucht, kann im DCC alle Tasten nach eigenem Gusto programmieren. Das funktioniert mit üblichen Windows-Tastenkombinationen einwandfrei. Etliche Dragon-Kommandos stehen ebenfalls zur Auswahl, aber leider nicht alle. Wir hätten uns zum Beispiel gewünscht, die Tasten so belegen zu können, dass das markierte Wort wahlweise groß oder klein geschrieben wird, denn Fehler in der Groß- und Kleinschreibung kommen bei Dragon Naturally Speaking mit am häufigsten vor. Das ist indes keine Schludrigkeit von Philips, sondern dem eingeschränkten Repertoire der Dragon-Schnittstelle geschuldet. Eine feine Neuerung ist der integrierte Bewegungssensor. Er lässt sich so programmieren, dass die Aufnahme automatisch stoppt, wenn das Gerät auf dem Tisch abgelegt wird. Die Akustik des neuen Speechmike ist überragend. Wer nicht gerade viel Musik am Computer hört, benötigt …

Weiterlesen auf FAZnet

Test: Dragon NaturallySpeaking 12 von Nuance

„Neuer Termin mit Martin nächste Woche Dienstag 12 Uhr“: Schon dieser eine Satz demonstriert beispielhaft die Leistungsfähigkeit einer modernen Spracherkennung. Er ist in weniger als fünf Sekunden diktiert und führt nahezu unmittelbar zu einem Eintrag im elektronischen Kalender. Ohne Spracherkennung dauert es immer länger: Das Starten des Terminkalenders, die Suche des passenden Datums und das Eintippen der Details ist viel mühseliger, als seinem Smartphone neun Wörter vorzusprechen.

Ihre frappierende Leichtigkeit hat Apples Sprachassistentin Siri so populär gemacht. Aber sie ist ja auch mehr als eine Spracherkennung, die Gesprochenes in Schriftliches überführt. Siri nimmt zusätzlich eine semantische Analyse des Inhalts vor, und anhand bestimmter Schlüsselbegriffe wie „Termin“ erfolgt automatisch die Umsetzung in Aktionen, wie der Eintrag im Terminkalender oder das Abrufen des Wetterberichts.

Siri läuft derzeit nur auf dem iPhone 4S. Wer jedoch das iPad 3 oder auf dem Mac-Rechner das aktuelle Apple-Betriebssystem Mountain Lion einsetzt, kann zumindest die Diktatfunktion, also die reine Spracherkennung, ebenfalls verwenden. Wo immer der Cursor gerade steht: Man diktiert, der Audio-Schnipsel wird via Internet auf Server von Apple übertragen, dort transkribiert, und der Text kommt retour. Apple verwendet für seine Spracherkennung die Technik des amerikanischen Herstellers Nuance, der hier seit mehr als zehn Jahren Marktführer ist. Der Charme dieser Lösung besteht darin, dass sie geradezu unmittelbar zur Verfügung steht. Man muss keine Software installieren, kein Benutzerprofil anlegen, nichts neu lernen, sondern kann einfach loslegen. Die Erkennungsrate ist sehr hoch, die Ergebnisse sind verblüffend gut.

Vergleicht man die drei Apple-Plattformen, ist die Performance nahezu identisch. Der Mac-Rechner mit flinken Prozessoren ist dem iPad 3 keineswegs überlegen. Auf allen drei Systemen sind auch ähnliche Fehler und Einschränkungen zu beobachten. Zum Beispiel die falsche Großschreibung, wenn man im Satz innegehalten hat. Und die Restriktionen sind ebenfalls nicht zu übersehen: Der Erkenner erlaubt nicht das Anlernen oder Training ihm unbekannter Begriffe, er versteht kein Fachvokabular, und man kann nur abschnittweise diktieren, weil ja jeder Satz oder Halbsatz nach Amerika geschickt wird, was nicht jeder goutiert.

Für professionelles Diktieren längerer Texte oder die Umsetzung von Diktaten, die zuvor aufgenommen wurden, ist das Apple-System ungeeignet. Es wird nur dann besser, wenn Apple die Algorithmen auf seinen Servern verbessert. In Amerika beklagen sich sogar viele Nutzer, dass Siri in den vergangenen Monaten schlechter geworden sei. Man wird also mit diesem semiprofessionellen System auf den Geschmack gebracht. Schnell gibt es Appetit auf mehr, und dann ist eine Software gefragt, die auf dem eigenen PC läuft, ein umfangreiches und ergänzbares Wörterbuch mitbringt, für bestimmte Berufsgruppen ein Fachvokabular und vieles andere mehr.

Wer Höchstleistungen sucht, benötigt einen aktuellen Rechner

Wer jedoch nach ein paar Runden im Porsche 911 die Leistung eines Formel-1-Boliden sucht, kommt um ein Fahrertraining nicht herum. Zum Glück hat Nuance bei seiner Windows-Software Dragon Naturally Speaking in den vergangenen Jahren viel getan, um die Hürden des Einstiegs zu senken. Dragon ist der Maßstab und die Referenz, es gibt keine andere Software mit vergleichbarer Leistungsfähigkeit, man mag diese Monopolstellung bedauern.

Mit der neuen Version 12, die seit Ende August im Handel ist, beschränkt sich die Inbetriebnahme nach der Installation auf ein fünfminütiges Diktat, mit dem der Erkenner den individuellen Sprachstil analysiert. Die viel größere Hürde im Alltagseinsatz ist die Fülle der Möglichkeiten und Optionen. Mit dem Drachen kann man ein Windows-System durchgängig mit Sprache steuern, eine Outlook-E-Mail verfassen oder Word-Kommandos aufrufen. Das alles will aber geübt sein – ungeachtet der zahlreichen Hilfestellungen.

Der neue Drachen bringt ein abermals verbessertes akustisches Modell mit, das nun Best Match V heißt. Dieses verlangt einen Mehrkernprozessor und mindestens 4 Gigabyte Arbeitsspeicher. Wir probierten Dragon 12 mit einem älteren Core-2-Duo-PC und zwei Gigabyte Speicher. Hier wurde uns Best Match IV empfohlen, wir nahmen trotzdem das neue Akustikmodell – und die Arbeitsgeschwindigkeit brach deutlich ein. Wer Höchstleistungen sucht, benötigt also einen aktuellen Rechner. Mit dem Core-i5 und 8 Gigabyte Arbeitsspeicher hatten wir keine Probleme. Das neue Best-Match-Modell soll um bis zu 18 Prozent verbesserte Erkennungsleistung bieten, sagt das Marketing von Nuance, eine saloppe Formulierung, die man jedoch so nicht stehen lassen kann.

Genauigkeit bei bis zu 99 Prozent

Berücksichtigt man, dass eine Spracherkennung nur jene Begriffe fehlerfrei umsetzen kann, die in ihrem Vokabular gespeichert sind, hängt die Beurteilung von den Texten und den Inhalten ab. Eine prägnante Zusammenfassung der Art „98 Prozent Genauigkeit“ ist also unsinnig. Ein Arzt, Anwalt oder Gutachter, der für seine Diktate ein begrenztes Fachvokabular verwendet und dies sinnvollerweise gleich mit Dragon dazukauft, erreicht spielend 99 Prozent und mehr. Ein Dragon-Nutzer mit einem reichhaltigen und ungewohnten Vokabular, sagen wir ein Schriftsteller oder Journalist, wird darunter liegen. Er wird vermutlich eigene Ad-hoc-Begriffe (wie diesen hier) verwenden und vielleicht nur einmal und dann nie wieder. Kein Wörterbuch kann da mithalten.

Wie gut die Erkennungsleistung von Dragon 12 im Vergleich mit der Vorgängerversion ist, haben wir also mit unseren eigenen Diktaten ermittelt, das ist eine subjektive Komponente im Test. Aber wir suchten reproduzierbare Ergebnisse. Deshalb wurde aus Hunderten von Diktiergerät-Aufzeichnungen im DSS-Pro-Format eine repräsentative Auswahl erstellt. Neben kurzen, knappen E-Mails auch längere mit privatem Inhalt, Nachrichtenmeldungen, das Protokoll einer Testfahrt im Auto, und spaßeshalber ein „abdiktierter“ wissenschaftlicher Aufsatz aus der DDR-Geschichtsschreibung in einer aus heutiger Sicht inakzeptablen Sprache.

Dragon Naturally Speaking 12: Bis in die kleinsten Verästelungen hinein anpassbar (Foto Spehr)

Ein und dieselbe Diktatdatei ließen wir der Reihe nach erkennen, und zwar mit der alten und der neuen Version, so wie sie der Nutzer nach der Installation vorfindet (also ohne benutzerspezifische Anpassungen). Die Ergebnisse: Etwa jeder zehnte Fehler wurde ausgemerzt, die Genauigkeit liegt – je nach Text – bei bis zu 99 Prozent.

Die „Premium“-Variante sollte es mindestens sein

Vor zwei Jahren konnten wir bei der Vorstellung der Version 11 festhalten, dass die Fehlerrate halbiert wurde. Der Fortschritt schreitet also um so langsamer voran, je perfekter die Erkennung wird. Die typischen Probleme sind übrigens gleich geblieben: Groß- und Kleinschreibung, Getrennt- und Zusammenschreibung, Abkürzungen, Produkt- und Eigennamen bereiten noch immer Kopfzerbrechen. Aber mit der „richtigen“ Nutzung der Korrekturbefehle und zunehmender Adaption an das Nutzervokabular verschwindet mancher Fehler. Und mit ein bisschen Erfahrung kennt man im Laufe der Zeit die Stolpersteine und wird dann beispielsweise „ist vom Feinsten“ dahingehend diktieren, dass man dem „Feinsten“ das Kommando „groß“ voranstellt.

Eine häufige Fehlerklasse wurde indes ausgemerzt: Mit einer Option kann man Personalpronomen der 2. Person („Du“, „Dich“) immer groß schreiben lassen und mit einer weiteren kontextabhängig auch die der 3. Person („Sie“, „Ihnen“). Das ist ebenso ein Gewinn wie „Smart Format“, eine Funktion, die sich einmalige Korrekturen einer Schreibweise („Kilogramm“ statt „kg“) permanent merkt. Etliche kleinere Verbesserungen betreffen ferner die Steuerung eines E-Mail-Systems im Browserfenster, das zu diesem Zweck mit einer Erweiterung versehen sein muss.

Wie gehabt läuft Dragon 12 selbst mit Windows XP; zwei Gigabyte Arbeitsspeicher sind indes Pflicht. Weiterlesen auf FAZnet

Der neue 7er von BMW: Das erste Auto mit E-Mail-Spracherkennung à la Siri

Ende Juli kommt der 7er von BMW mit einem Facelift auf den Markt, die wichtigsten Verbesserungen betreffen die Kommunikationstechnik. Erstmals in der Werksausstattung gibt es eine Spracherkennung für E-Mail und SMS, die BMW kurioserweise „Freitextspracherkennung“ nennt. Der Hersteller wird nicht in der Pressemeldung genannt, es ist nach meinen Informationen Nuance, die auch an Apples Siri beteiligt sind.

Auszüge aus der Pressemeldung:

„Mit der neuen Generation des Navigationssystems Professional komplettiert eine Freitextspracherkennung sowie eine optimierte Sprachsteuerung das Angebotsportfolio der Officefunktionalitäten von Connected Drive. …  Durch eine Freitextspracherkennung ermöglicht die Diktierfunktion dem Fahrer erstmals, im Fahrzeug kurze Textnachrichten zu „schreiben“ – einfach, indem er sie spricht. Bereits wenige Sekunden nach der Spracheingabe erscheint der erkannte Text im Display und wird auf Wunsch vorgelesen. Selbstverständlich stehen dem Fahrer auch einfache, sprachbasierte Editierungsmöglichkeiten zur Verfügung, um komfortabel und vor allem sicher E-Mails und Kurznachrichten zu erstellen. Das System ist multilingual und erkennt aktuell sechs Sprachen.

„Eine weitere sprachbasierte Funktion rund um die Officefunktionalitäten ist das Aufnehmen von Sprachnotizen. Diese können bei Bedarf direkt über E-Mail verschickt werden. Der große Vorteil besteht für den Fahrer hier in der schnellen Konservierung von Ideen oder To-Dos mit der Möglichkeit, sie an die jeweiligen Adressaten weiterzuleiten – und das ohne Ablenkung vom Verkehrsgeschehen. Auf Wunsch lassen sich die aufgenommenen Notizen auch per USB-Stick einfach aus dem Fahrzeug mitnehmen.“

 

Der neue 7er von BMW (Foto Hersteller)

Weitere Highlights des neuen 7er BMW:

  • Multifunktionales Instrumentendisplay, „virtuelle Anzeigen“ in verschiedenen Farben
  • 3D-Darstellung der Menüs
  • iDrive mit 1,3 GHz-Prozessor (keine genauen Angaben) und „eigener 3D-Grafikkarte“ (keine weiteren Angaben)
  • Neu gestaltetes Kontextmenü (PIE-Menü), das mit dem Controller aufzurufen ist
  • Speed Limit Info und Überholverbotsanzeige mit Kamera

Test: Olympus DS 7000

An der Spitze wird die Luft dünn. Wenn es um das professionelle digitale Diktieren geht, landet der Arzt oder Anwalt unweigerlich bei den hochwertigen Geräten von Philips oder Olympus. Es sind Arbeitsinstrumente für den Dauereinsatz, überzeugend in Anmutung, Ergonomie, Verarbeitung und Bedienung. Wer sein Diktiergerät rund um die Uhr nutzt, will keinen Kompromiss in der Hand halten. Die beiden Referenzgeräte in der Oberklasse, das DPM 9600 von Philips und das DS 5000 von Olympus, sind mittlerweile fast fünf Jahre alt.

Farbdisplay und Docking-Station: Olympus DS 7000 (Foto Hersteller)

Nun steht der Wachwechsel an, zunächst bei Olympus. Das neue DS 7000 ist bei uns seit einigen Wochen im Einsatz, und der Fortschritt soll sofort sichtbar sein: Als erstes Profigerät hat es ein TFT-Farbdisplay. Was bringt das? Ehrlich gesagt: nicht viel. Olympus hat die gewohnte Menüführung beibehalten, nun sind die einzelnen Einträge unterhalb der Karteireiter etwas besser voneinander abgesetzt und schneller zu identifizieren. Aber ein großer Schritt nach vorn ist das nicht. Denn mit einem Diktiergerät geht man weder ins Internet, noch schaut man Fotos. Im Gegenteil, die farbige Anzeige hat sogar einige Nachteile: Sie muss früher dunkel schalten als das monochrome Pendant, und ihr Stromverbrauch ist höher. Aber Olympus hat beim Akku alles richtig gemacht und verwendet seine Lithium-Ionen-Batterie aus den Digitalkameras. Der Kraftspender hält um die 30 Stunden durch und hat damit eine Ausdauer, die deutlich über der des Philips DPM 9600 mit Monochromdisplay liegt. So muss man sich nur an die fortwährende Abdunklung der Anzeige gewöhnen.

Meisterstück der Feinmechanik

Die Hardware des neuen DS 7000 ist – wie beim Vorgängermodell – über jeden Zweifel erhaben. Der Body aus Metall ist teilweise mit schwarzem Kunststoff überzogen, das Akkufach ist gegen unbeabsichtigtes Öffnen durch einen Riegel geschützt, und der abermals verbesserte Schiebeschalter, der auf Rollen gleitet, darf als Meisterstück der Feinmechanik gelten. Er arbeitet im Unterschied zur Konkurrenz geräuschlos und fährt absolut leichtgängig und geschmeidig auf seine vier Positionen. Bei diesem Hauptbedienelement spürt man sofort den Unterschied zwischen einem Profigerät und billigen Möchtegern-Apparaten. Bei Bedarf lässt sich der Stand des Schalters auf dem Display visualisieren, so dass der ungeübte Nutzer eine optische Rückmeldung bekommt.

Die zweite Neuerung ist das modifizierte Mikrofon, das mit einer nach oben herausgezogenen Kapsel und einer Feinabstimmung für die Spracherkennung aufwartet. Damit Dragon Naturally Speaking bessere Ergebnisse liefert, hat Olympus zusammen mit dem Softwarehersteller Nuance das Frequenzspektrum des Mikros optimiert. Wir haben mit dem Philips in der linken und dem Olympus in der rechten Hand ein Probediktat aufgenommen und anschließend der PC-Software vorgesetzt. Das Ergebnis: Obwohl die Aufnahme des Olympus in der subjektiven Wahrnehmung besser klingt, gab es hinsichtlich der Erkennungs- und Fehlerrate nicht den geringsten Unterschied – weder in sehr leiser Umgebung noch bei dezent im Hintergrund laufender Musik. Das bestätigt unsere These, wonach eine ordentliche Aussprache bei der Spracherkennung hilfreicher ist als ausgeklügelte Mikrofontechnik.

In gewisser Hinsicht gibt es beim neuen Olympus sogar ein Mikrofonproblem. Denn die Klinkenbuchsen für ein Zusatzmikrofon und den Ohrhörerausgang wurden von der Oberseite des Geräts auf die linke Seitenfläche gelegt. Zugegeben, das sieht nun schicker aus. Aber ein Aufsteckmikrofon mit Nebengeräuschunterdrückung lässt sich jetzt nicht mehr sinnvoll mit dem DS 7000 verwenden, landen doch Zeige- und Mittelfinger nahezu automatisch über der Buchse. Was sich die Japaner dabei gedacht haben, möchte man doch gern wissen. Mit den kleinen Aufsteckmikros erstellt man nämlich auch im Auto, in der Bahn oder am Flughafen eine spracherkennungstaugliche Aufzeichnung. Ohne die Nebengeräuschunterdrückung hörten sich unsere DS-7000-Aufnahmen im Auto durchaus gut an, aber die Fehlerrate bei der Spracherkennung ist indiskutabel. In diesem Sinne ist es gewiss klug, das ältere DS 5000 und seine ID-Variante (mit biometrischem Fingerabdruckscanner) noch eine Zeitlang im Markt zu belassen.

Alle weiteren Details des neuen DS 7000 entsprechen nahezu dem Vorgängermodell. Aufgezeichnet wird, wie bei jedem Profigerät, in den Formaten DSS und DSS Pro, beides sind quasi die MP3-Pendants für Sprache. Ein Diktiergerät ist ein Spezialist und kein Audio-Generalist. Dateien lassen sich mit 256-Bit-AES-Verschlüsselung vor unbefugtem Zugriff schützen, bis zu zehn Autoren und 20 Diktattypen sind direkt am Gerät administrierbar. Die typische Olympus-Marotte, neben der SD-Speicherkarte ein zweites Micro-SD-Laufwerk unterhalb des Akkufachs unterzubringen, wurde beibehalten.

Die kleine Karte lässt sich nur mit chirurgischem Werkzeug aus ihrem Fach herauspfriemeln. Da Speicherplatz weder knapp noch teuer ist, sehen wir hier keinen Gewinn und den Nachteil, dass beim Andocken an Windows gleich zwei störende „Was soll ich nun mit dem Laufwerk anfangen?“-Meldungen aufploppen. Auch irritiert, dass man – wie gehabt – zwischen verschiedenen USB-Klassen umschalten muss. Wer das DS 7000 zusammen mit Dragon Naturally Speaking einsetzt, erhält mit der ebenfalls neuen Zusatzsoftware Olympus Dictation Management System (ODMS) ein sehr leistungsfähiges Programm, das einen ausgefeilten Workflow vom Diktat über die Spracherkennung bis hin zum Versand der transkribierten Dateien per E-Mail oder FTP bietet.

Ganze Befehlsketten und Regeln sind programmierbar, auch in Abhängigkeit vom Diktierer und seinem Kürzel. Es gibt zwar noch einige kleine Fehler, aber insgesamt ist das Gebotene sehr üppig. Die Software eignet sich nicht nur für den Einzelplatz, sondern auch für große Arbeitsgruppen, Dragon lässt sich zudem als Hintergrund-Anwendung integrieren.

Weiterlesen auf FAZnet