Test: Apple AirPods

Das weiße Pärchen fürs Ohr hat es uns angetan. Denn die Airpods-Stöpsel von Apple eignen sich nicht nur zum Musikhören. Sie sind intelligente Wearables.

Man kann es sich einfach machen und diese Bluetooth-Ohrenstöpsel als ein wie gehabt viel zu teures Apple-Produkt abtun. Andere Mitbewerber sind günstiger. 180 Euro verlangt Apple

Ohrcomputer: Apple AirPods neben iPhone-Modellen. Foto Hersteller

, und sie klingen nicht einmal herausragend. Doch das weiße Pärchen fürs Ohr hat es uns angetan. Die Funktionalität geht weit über die Musikwiedergabe und Telefonie hinaus. Eigentlich sind es Ohrcomputer. Sie warten brav in ihrem Häuschen auf den Einsatz, und wenn sie dann gefordert sind, verhalten sie sich so clever, als hätten sie eine eigene Intelligenz. Die Rede ist von den Airpods, die Apple Anfang September vorstellte und erst jetzt in kleinen Stückzahlen in den Handel kommen.

Die Airpods sind ein typisches Apple-Produkt, sie verzichten fast vollständig auf Bedienelemente, was den Umgang mit ihnen einfach macht. Muss man bei einem herkömmlichen Headset wissen, welche Taste fürs Bluetooth-Koppeln zu betätigen ist und welche die Wiedergabe startet, ist hier alles simpel: Man öffnet die mitgelieferte Ladebox (mit Lightning-Anschluss an der Unterseite) in der Nähe eines iPhones: Schon sind die Airpods für alle zum iCloud-Konto des Nutzers gehörenden Geräte angemeldet – und einsatzbereit.

 
Denn es gibt nicht einmal einen Ein- und Ausschalter. Man nimmt die beiden Stöpsel aus der Box, setzt sie ins Ohr, und sie werden automatisch aktiviert. Auch während laufender Musikwiedergabe oder eines Telefonats. Mit optischen Sensoren und Beschleunigungssensoren erkennen die Airpods, ob sie sich im Ohr befinden. Man kann sie im Monobetrieb einohrig betreiben, auch das wird selbsttätig detektiert, und wenn man den Stöpsel dann aus dem Ohr nimmt, pausiert die Musikwiedergabe.

Gut für Siri und Spracherkennung

Nach dem Koppeln werden die Airpods allein mit dem Finger bedient: Ein doppelter Fingertipp auf das Gerätchen aktiviert Siri, um beispielsweise mit Spracherkennung die Musik auszuwählen oder die Lautstärke zu regeln – oder jede andere Siri-Aufgabe zu starten. Die Lautstärke kann man natürlich auch mit den Seitentasten des iPhones steuern. Die Airpods eignen sich jedoch aus einem Grund besonders gut für Siri und Spracherkennung: Eine Nebengeräuscherkennung filtert Störendes heraus, und zwei Mikrofone sind bei solchen Rechentricks immer besser als eins. Wir konnten im fahrenden Auto (auf dem Beifahrersitz) nahezu fehlerfrei Whatsapp-Nachrichten diktieren.

Weiterlesen auf FAZnet

Volker Weber: Your questions about the AirPods

Internet im Auto: Audi connect geht an den Start

Heute hat Audi, die bereits im Audi A8 eine Google-Suche mit Internet-Zugang implementiert haben, den Startschuss für das neue „Audi connect“ gegeben. Auszüge aus der Pressemitteilung, Hervorhebungen von mir.

Für Audi connect stehen heute schon die Modelle A8, A7 Sportback, der neue A6 und demnächst auch der A1. Diese Modelle lassen sich auf Wunsch per UMTS-Modul mit der Online-Welt vernetzen. Diese Verbindung ermöglicht eine ganze Reihe nützlicher Anwendungen: Beispielsweise die uneingeschränkte Einbindung von Google Earth in die Kartendarstellung des Navigationssystems, was die Orientierung erheblich erleichtert. Zudem findet der Fahrer dank der Anbindung an die Google-Suche eine enorme Anzahl von aktuellen Sonderzielen. Und der integrierte Informationsdienst bringt unter anderem Wetter-, Reisedaten- oder Nachrichten ins Auto. Darüber hinaus lassen sich dank des integrierten W-LAN-Hotspots bis zu acht mobile Endgeräte mit dem Internet koppeln.

Im Sommer 2011 folgen in Europa mit dem Service Audi Verkehrsinformation online und einer erweiterten Sprachbedienung – mit der sich per Sprachbefehl Sonderziele via Google finden lassen – weitere Meilensteine.

Außerdem können Audi Kunden künftig in einigen Ländern als neuen Online-Dienst auch Google Street View nutzen und sich beispielsweise das Navigationsziel am MMI-Bildschirm aus der Fußgängerperspektive im 360-Grad-Radius anschauen.

In der weiteren Zukunft ermöglich es die Audi Online-Anbindung dem Kunden neben der Nutzung von Online-Diensten auch Software-Funktionen des Autos zu beeinflussen. Eine Reihe von Funktionen werden sich aktualisieren beziehungsweise nachträglich freischalten lassen.

Ein weiteres Themenfeld von Audi connect beschreibt die Vernetzung zwischen Auto und Besitzer.  Audi-Fahrer können künftig diverse, speziell auf ihr Modell abgestimmte Smartphone-Funktionen nutzen. Beispielsweise lassen sich mit GPS-Handy fotografierte Bilder im Navigationssystem abspeichern, auf Wunsch führt es dann zu den Koordinaten der Fotolocation. Auch bei der Mobilitätsplanung elektrisch fahrender Autos spielt das Smartphone eine wichtige Rolle. Bei den Prototypen des Audi A1 e-tron kann man jederzeit der Akku-Ladezustand am Handydisplay ablesen. Auch ob Türen und Fenster verschlossen sind, oder ob Servicemitteilungen vorliegen, wird angezeigt. Auch das Steuern der Innenraumtemperatur per Mobiltelefon ist denkbar. Um Praxiserfahrungen auf diesem Gebiet zu sammeln, startet Audi gemeinsam mit einigen Partnern im Sommer 2011 einen Flottenversuch mit dem A1 e-tron.

Als weiteres Themenfeld beschreibt Audi connect die Auto-Umfeld-Verbindung. Hierbei dreht sich alles um die Schlagworte Car-to-Car-, Car-to-X- und X-to-Car-Kommunikation. Diese Begriffe beschreiben den Datenaustausch von verschiedenen Autos untereinander, von Auto zu Infrastruktur und von der Infrastruktur zum Auto.

Zwischen Hingabe und Präzision

Neulich beim Mercedes-Händler. Der ältere Kunde, wir schätzen ihn auf jugendliche 75 Jahre, holt einen nagelneuen CLS 350 ab. Fein herausgeputzt steht das Coupé im Hof, und der Verkäufer beginnt mit seiner Einweisung. Rund eine Stunde hören wir mit halbem Ohr zu, unser Auto wird derweil in der Werkstatt geprüft. Was das Fahren und die Mechanik betrifft, ist alles Wichtige schnell gesagt. Und dann geht es an die Erklärung des Comand-Systems für Routenführung, HiFi und Telefonie. „So geben Sie das Ziel ein, da geht es zurück ins Hauptmenü, mit dieser Taste starten Sie …“ und so weiter. Der stolze Neuwagenbesitzer wird langsam ungeduldig. Er will vermutlich den Sechszylinder sofort auf den engen Straßen des Taunus ausfahren, die Leistung und Leidenschaft von mehr als 300 PS spüren und eine scharfe Prüfung auf Exaktheit und Funktion vornehmen. Wir können ihn verstehen und leiden mit. Dieses Auto muss bewegt werden. „Zeigen Sie ihm doch endlich die Sprachbedienung“, möchten wir am liebsten den Verkäufer in seinem Redeschwall unterbrechen. Damit hätte sich das ganze Hin und Her sofort erledigt. Denn die Spracherkennung arbeitet bei den deutschen Premiumherstellern mittlerweile verblüffend gut. „Ziel eingeben, Frankfurt, Hellerhofstraße“, das ist schon alles. Ältere Autofahrer profitieren davon ungemein. Sie können sich wieder mit allen Sinnen einer Fahrt zwischen Hingabe und Präzision widmen.

Google, Android, und das Wirrwarr bei der Spracherkennung

Die Sprachsuche ist der Knüller und ändert unseren Umgang mit Smartphones

Spracherkennung ist „das nächste große Ding“. Am Windows-PC funktioniert sie sehr ordentlich, und nun kommt Spracherkennung aufs Smartphone. Wer sich mit dem Android-Betriebssystem beschäftigt, stellt schnell fest, dass unterschiedliche Spracherkenner im Einsatz sind. Hier ein Blick auf die einzelnen Apps und ihre Leistungsfähigkeit. Das Ganze habe ich mit dem neuen Google Nexus S und Android 2.3 ausprobiert.

Ein kleiner Hinweis vorab: Man achte auf die richtige Einstellung der Eingabesprache. Und zwar unter Einstellungen, Spracheingabe- und ausgabe, Spracherkennungseinstellungen und Sprache. Deutsch ist zweimal vorhanden, einmal Standard – Deutsch (Deutschland) und etwas tiefer Deutsch (Deutschland).

1. Sprachwahl. Nach dem Start kommt „Jetzt sprechen“, und es sind einige Hinweise zu sehen, was man sagen kann, etwa „Max Schmidt anrufen“. Man kann auf diese Weise auch Programme öffnen. Allerdings ist die Erkennungsleistung in deutscher Sprache  so schlecht, dass bei meinen Experimenten nicht einmal ein einziges Kommando richtig erkannt wurde.  Wenn man als Erkennungssprache „Englisch“ einstellt, funktioniert’s etwas besser, aber alles andere als perfekt. Nach meiner Einschätzung findet eine Erkennung lokal auf dem Gerät statt. Wer mit Apples iPhone oder Nokia-Geräten vergleicht, wird hier die Schulnote „mangelhaft“ vergeben.

2. Spracherkennung beim Schreiben von SMS und E-Mail. Im Eingabefeld auf das kleine Mikrofonsymbol der virtuellen Tastatur tippen, „jetzt sprechen“ erscheint — und loslegen. Wenn man fertig ist, aufhören. Die Audiodatei wird auf Google-Servern transkribiert, also nicht lokal. Zu Hause im W-Lan ist das kein Problem, aber unterwegs muss man auf Datenkosten achten und kann schon bei kurzen Unterbrechungen der Datenverbindung sein Diktat verlieren.

Die Erkennungsleistung ist ganz ordentlich, bei deutscher Sprache werden allerdings Satzzeichen nicht erkannt, bei englischen Diktaten durchaus.  Das Problem hier: Man weiß nicht, wie lange man sprechen kann. Und wenn man zu lange spricht, gibt es eine Fehlermeldung und man kann von vorn anfangen. Wenn dieser „Serverfehler“ nicht wäre, würde ich die Schulnote „befriedigend“ geben.

3. Sprachsuche: Dieser Erkenner ist der Knüller. Am besten gleich auf die Startseite legen. Das Programm erfüllt nur eine Aufgabe: gesprochenen Text zu transkribieren und an den Browser übergeben. Die Resultate sind atemraubend gut.

Einige Beispiele, was 100% richtig bei mir erkannt wurde:

„Veranstaltungen heute in Bad Homburg oder Kronberg oder Taunusstein“

„Wikipedia VW Käfer“.

„Das Kinoprogramm in Ober-Mörlen übermorgen“

„Wirtschaftsredaktion der Frankfurter Allgemeinen Zeitung“.

Ist sich der Erkenner nicht ganz sicher, blendet er verschiedene Alternativen ein, und man kann mit einem Fingertipp auswählen. Auch hier wird auf Google-Servern transkribiert, Nebenwirkungen und Einschränkungen siehe oben.

Diese Sprachsuche ändert den Umgang mit dem Smartphone. Es wird zur Auskunftsmaschine: Ein Handgriff, eine Frage diktieren, und schon hat man die Antworten aus dem Internet auf seinem Display.

4. Google Übersetzer: Diese App arbeitet mit der Erkennungsmaschine von 2., siehe oben, und übersetzt das Erkannte gleich in andere Sprachen, gegebenenfalls auch mit einer Sprachausgabe (Text wird mit einer synthetischen Stimme vorgesprochen). Kann sehr cool und nützlich im Auslandsurlaub sein, aber man sollte auf die Datenkosten achten. Einige Screenshots hier bei TechCrunch.

Ausblick:

Ein guter Spracherkenner benötigt ein gewisses Training und persönliche Nutzerprofile. Die Software muss sich an die Eigenheiten des Sprechers gewöhnen. Bislang ist die Google-Spracherkennung sprecherunabhängig, und sie lernt nichts dazu. Mit einem Nutzerprofil lässt sich die Erkennungsleistung signifikant erhöhen. Google beginnt deshalb in den Vereinigten Staaten bei der amerikanischen Spracherkennung mit dem Anlegen solcher Profile. Das alles hat nichts mit Datensammelwut zu tun, es geht nur um die Erkennungsleistung.

Spannend dürfte Spracherkennung mit Android werden, wenn die ersten Nuance-Apps verfügbar sind. Nuance ist der Marktführer in diesem Bereich und Hersteller von Dragon NaturallySpeaking. Die Nuance-App fürs iPhone und iPad („Dragon Dictation“) ist deutlich leistungsfähiger als die aktuelle Google-Spracherkennung.

Test: MMI im Audi A1 (2010)

Nein, er ist keine gewöhnliche Vierradware, er mag zwar klein sein, ist aber keineswegs billig. Der Audi A1 fährt im Kleinwagensegment, hat jede Menge Technik vom VW Polo, trägt aber auch Gene der Größe in sich, vor allem in Sachen Kommunikation. Um schnell auf den Punkt zu kommen: Kein anderer in dieser Klasse bietet auch nur annähernd so viel. Man hat ihm nahezu das gesamte MMI-Programm der großen Brüder mitgegeben, das Gebotene ist überragend – und natürlich ein Mittel der Distinktion gegenüber der Konkurrenz. Hinsichtlich Navigation, HiFi, iPod-Anbindung und Telefonie bekommt man im Audi A1 Spitzentechnik ohne Wenn und Aber, also ein High-Tech-Fahrzeug im kompakten Format.

Coverflow: Musik für Feinschmecker (Fotos Spehr)

Die Qual der Wahl besteht in zwei Ausstattungsvarianten: Das auf den ersten Blick günstige „Navigationspaket“ schlägt zwar mit nur 1160 Euro zu Buche, dazu kommen aber als Pflichtprogramm die Radioanlage Concert (425 Euro), das Multifunktions-Sportlederlenkrad (130 bis 390 Euro) und das monochrome Fahrerinformationssystem zwischen Tachometer und Drehzahlmesser (180 Euro). Wer unterwegs freisprechend telefonieren will, benötigt ferner die Bluetooth-Schnittstelle für weitere 570 Euro. Flugs ist man bei mindestens 2500 Euro gelandet, und spätestens dann, so spekuliert wohl das Audi-Marketing, wird man einen Blick auf das große MMI Plus werfen, das 2650 Euro kostet und ebenfalls das Fahrerinformationssystem sowie das Multifunktionslenkrad erfordert. Also mehr als 3000 Euro für die Elektronik in einem Fahrzeug, das mit dem kleinsten Motor (1.2 TFSI) 15 800 Euro kostet. Aber wer kauft schon ein nacktes Fahrzeug? Die Aufpreisliste ist auch jenseits der Elektronik lang und verführerisch. Unser Testwagen mit dem 1,4-Liter-Motor und 90 kW (122 PS, Grundpreis mit Automatik 19 000 Euro), lag mit allem Drum und Dran bei fast 35 000 Euro, also ein kleines Auto zum Preis eines großen, und dann kann man auch MMI Plus getrost mitnehmen.

Es lohnt sich: Die Software entspricht nahezu dem aktuellen System im neuen Audi A8, nur bei der Hardware macht man Kompromisse: Der Monitor, der wenig elegant aus dem Armaturenbrett hervorguckt, lässt sich nicht motorbetrieben, sondern nur von Hand ein- und ausklappen, er ist zudem im Blickwinkel nicht justierbar – und mit einer Diagonale von 16,5 Zentimetern etwas kleiner. Auch der Controller als zentrales Bedienelement weist nicht die gewohnte Größe auf, rastet aber satt ein und macht hinsichtlich Haptik und Anmutung einen ordentlichen Eindruck. Vier Softkeys rund um den Drehsteller übernehmen kontextabhängig bestimmte Funktionen. In die Hauptmenüs führen acht eindeutig beschriftete Tasten, und mit „Back“ kommt man jeweils eine Ebene zurück. MMI Plus ist leicht und eingängig zu bedienen, es arbeitet zudem schnell und zuverlässig. Wer mit dem System etwas mehr vertraut ist, nutzt die Sprachsteuerung von Nuance, sie arbeitet auf dem Niveau des A8 und erlaubt nicht nur die Namenwahl von Telefonbucheinträgen ohne vorheriges Training, sondern auch das Erfassen von Straße und Ort eines Ziels „in einem Rutsch“.

Die Zentrale: MMI im Audi A1

Der Copilot erledigt seine Aufgabe mit Bravour. Die Bildschirmdarstellung ist präzise und stets eindeutig. Eine Mini-Karte für Kreuzungen und Fahrspurassistenten gehören zur Ausstattung. Bei Bedarf lassen sich vor Beginn der Fahrt drei verschiedene Strecken berechnen, eine davon soll besonders verbrauchsgünstig sein. Und nun zeigt Audi in der Karte auch Hinweise zum aktuell geltenden Tempolimit, es handelt sich allerdings um historische Daten des Kartenherstellers. Eine kameragestützte Erfassung der Verkehrszeichen fehlt ebenso wie eine Warnung bei der Überschreitung des Limits. Ein schönes und sinnvolles Extra ist wiederum TMC Pro, es werden also die Premium-Verkehrsinformationen angezeigt und zwecks Stauvermeidung ausgewertet.

Auch bei HiFi und Multimedia bietet der A1 die große Offenheit für unterschiedliche Systeme. Am einfachsten gelingt die Musikwiedergabe von einer handelsüblichen SD-Speicherkarte, wie sie derzeit bis 32 Gigabyte erhältlich sind. Gleich zwei davon lassen sich verwenden, genug Platz für mehr als 1000 Alben. Wer sich nicht um die Umwandlung des Musikbestands ins MP3-Format kümmern will, kann diese Pflichtübung von MMI erledigen lassen: Bis zu 20 Gigabyte stellt die Jukebox genannte Festplatte für Musik parat, die Titel von der CD werden automatisch ins MP3-Format eingedampft, und die Albendarstellung à la Apples „Coverflow“ ist spektakulär. Wer einen externen Musikspieler einsetzen will, schließt ihn entweder mit einem Adapterkabel an oder nimmt die Bluetooth-Übertragung A2DP, die von vielen Smartphones unterstützt wird. Wir hatten mit dem iPhone 4 keinerlei Probleme, störend ist indes, dass sich die HiFi-Anlage zu Beginn der Fahrt auch dann einschaltet, wenn man sie beim Verlassen des Fahrzeugs ausgeschaltet hatte. Alles andere rund um die Telefonie funktioniert mustergültig und einwandfrei. Dass das Sim-Access-Profil für Bluetooth nicht vorhanden ist, mag den Vieltelefonierer stören, ein Internetzugang fehlt ebenfalls. Aber wir reden ja hier von einem Kleinwagen, das sollte man nicht vergessen. (F.A.Z. vom 14.12.10)

Test: Device Control Center von Philips

Dumm gelaufen: Wer sich eines der teuren Handmikrofone für Diktate am PC kauft, stellt bei den beiden Marktführern Philips und Olympus fest, dass er zwar feinste Hardware erworben hat, aber zusammen mit der Spracherkennung Dragon Naturally Speaking genau das nicht funktioniert, was für den Vieldiktierer selbstverständlich ist: das Nutzen des Schiebeschalters für Aufnahmestopp und -pause. Warum ist das wichtig? Weil man damit arbeiten kann wie mit einem Diktiergerät. Nach oben geschoben startet die Aufnahme, nach unten hält sie an, und mit zwei weiteren Positionen lassen sich der schnelle Rücklauf sowie die Wiedergabe starten. Also eine perfekte Einhandbedienung, die bald in Fleisch und Blut übergeht. Nur mit dem Spracherkenner klappt das alles nicht, und wer auch immer die Schuld hat: Dragon-Hersteller Nuance oder die beiden Hardware-Lieferanten, es ist zum Verzweifeln.

Wir haben darüber schon öfter geklagt, und nun hat uns jemand erhört. Philips bietet seit kurzem für seine Speech Mike-Reihe unentgeltlich eine Windows-Software, die grundlegend Abhilfe schafft. Sie heißt „Speech Control“ und installiert sich kurioserweise als „Device Control Center“ am PC. Für das Laden der 300-Megabyte-Datei sollte ein schneller DSL-Anschluss vorhanden sein (www.philips.com/dictation). Nach dem Installieren wird das Programm im Autostart-Modus stets geladen, der Windows-PC fährt deshalb etwas langsamer hoch. Der Vorteil indes: Nach dem Start von Dragon ist das Diktiermikrofon sofort einsatzbereit.

Im Hauptmenü der Steuerungszentrale kann man nun das Speech Mike individuell konfigurieren, und zwar für verschiedene Anwendungen, nicht nur für Dragon Naturally Speaking. Es lässt sich das Verhalten des Schiebeschalters einstellen, aber auch die Belegung der Tasten am Gerät programmieren. Dabei gibt es verschiedene Befehlsarten: Tastenkombinationen, Mausaktionen, Text oder – im Fall Dragon – etwa ein Dutzend Kommandos für die Spracherkennung. Dass nicht das gesamte Befehlsrepertoire von Naturally Speaking aufrufbar ist, sei als kleine Kritik angemerkt. Aber schon mit der Voreinstellung des Herstellers kommt man prima zurecht: Eine Taste ruft etwa direkt den Korrekturmodus auf, wenn ein Wort oder eine Phrase falsch erkannt wurde. Und mit einer weiteren sendet man „Nimm 2“ und wählt damit den zweitbesten Treffer. Kurzum: Diese Software erlaubt ein nahezu optimales Zusammenspiel mit Dragon, man spart viele Kommandos und komplizierte Aktionen, ein großes Lob an die Entwickler.

Bei uns zeigte sich zudem im täglichen Einsatz ein weiterer Pluspunkt, nämlich die Entdeckung des Trackballs auf dem Speech Mike. Bislang hatten wir die Rollkugel stets vernachlässigt. Aber nun offenbarte sie beim Diktieren ins Dragon Pad ihre Vorzüge: Ohne zur Maus greifen zu müssen, lässt sich flink im Text manövrieren oder der Cursor verschieben, das klappt mit einer Hand bestens. Für konzentriertes Arbeiten reichen Bildschirm und Speech Mike vollkommen aus, ein Pluspunkt etwa für die Ärzte, die an einem PC-Terminal stehen.

Alles in allem arbeitet die Kombination aus Dragon Naturally Speaking und Philips Speech Mike wunderbar zusammen. Auf Dauer wird es sich kein Hardware-Hersteller leisten können, Produkte für Spracherkennung und -verarbeitung ohne Dragon-Anbindung auf den Markt zu bringen. Wer ein Olympus-Handmikro einsetzt, muss sich indes nicht grämen, sondern nur etwas Geld in die Hand nehmen. Die Software „Local“ von 4 Voice (www.4voice.de, F.A.Z. vom 16. Oktober 2007) leistet Ähnliches (und einiges mehr), kostet zwar ebenso viel wie ein gutes Handmikrofon, kann von uns aber nach wie vor empfohlen werden.

Test: Dragon NaturallySpeaking 11

Dreimal schneller als Tippen: Dragon NaturallySpeaking 11 (Foto: Hersteller)
Dreimal schneller als Tippen: Dragon NaturallySpeaking 11 (Foto: Hersteller)

Nach ungefähr zwei Stunden stellen sich die ersten Aha-Effekte ein, und dann kommt man aus dem Staunen nicht mehr heraus. Dass man sich nicht nur oberflächlich mit dieser Software beschäftigen muss und eine gewisse Übung benötigt – das ist der größte Nachteil der Spracherkennung am Computer. Wir haben es in den vergangenen Jahren immer wieder erlebt: Wer mit der Technik allein herumexperimentiert, ungeduldig ist und elementare Regeln missachtet, gibt nach kurzer Zeit auf. Wer jedoch Spracherkennung bei einem erfahrenen Benutzer im praktischen Einsatz sieht, will sie haben, die Faszination ist groß.

Spracherkennung wird von Jahr zu Jahr besser, derzeit hat sie ihren Durchbruch auf den modernen Smartphones. Mit dem offenen Betriebssystem Android in der aktuellen Variante 2.2 und mit dem iPhone von Apple kann man SMS und andere Nachrichten diktieren, die passenden „Apps“ vorausgesetzt. Die beste und zuverlässigste Lösung mit hoher Erkennungsrate ist „Dragon Dictation“ für das iPhone. Das Mini-Programm steht gratis parat, der Hersteller Nuance will damit für seine PC-Spracherkennung Dragon Naturally Speaking werben. Dass dies gelingt, zeigt die Plazierung der App als eine der meistgeladenen in Apples Online-Geschäft.

Nun bringt Nuance seine Windows-Software in der Version 11 auf den Markt und zeigt, was sich in den vergangenen zwei Jahren getan hat: Das vielfach verbesserte Programm ist der Maßstab, es gibt keine andere Software mit vergleichbarer Leistungsfähigkeit, man mag diese Monopolstellung bedauern. Wir haben den neuen Drachen zunächst an seiner Erkennungsleistung gemessen: Wie viel Prozent der Worte werden richtig erkannt? Das hört sich trivial an, ist es aber nicht. Berücksichtigt man, dass eine Spracherkennung nur jene Begriffe fehlerfrei umsetzen kann, die in ihrem Vokabular gespeichert sind, hängt die Beurteilung von den Texten und Inhalten ab. Eine prägnante Zusammenfassung der Art „98 Prozent Genauigkeit“ ist also unsinnig. Ein Arzt, Anwalt oder Gutachter, der für seine Diktate ein begrenztes Fachvokabular verwendet und dies sinnvollerweise gleich mit Dragon dazukauft, erreicht spielend 99 Prozent und mehr. Ein Nutzer mit einem reichhaltigen Vokabular, sagen wir ein Schriftsteller oder Journalist, wird eher bei 97 Prozent liegen. Er wird vermutlich eigene Ad-hoc-Begriffe (wie diesen hier) verwenden und vielleicht nur einmal und dann nie wieder. Kein Wörterbuch kann da mithalten.

Wie gut die Erkennungsleistung von Dragon 11 im Vergleich mit der Vorgängerversion 10 ist, haben wir mit unseren eigenen Diktaten ermittelt, das ist eine subjektive Komponente im Test. Aber wir suchten reproduzierbare Ergebnisse. Deshalb wurde aus Hunderten von Diktiergerät-Aufzeichnungen im DSS-Pro-Format eine Auswahl erstellt. Neben kurzen, knappen E-Mails auch längere mit privatem Inhalt, Nachrichtenmeldungen, ein Protokoll einer Testfahrt im Auto und spaßeshalber ein wissenschaftlicher Aufsatz aus der DDR-Geschichtsschreibung in einer aus heutiger Sicht merkwürdigen Sprache. Ein und dieselbe Diktat-Datei ließen wir der Reihe nach erkennen, und zwar mit der alten und der neuen Version, so wie sie der Nutzer nach der Installation vorfindet (also ohne benutzerspezifische Anpassungen). Die Ergebnisse: Die Fehlerrate ist in etwa halbiert, die Genauigkeit liegt – je nach Text – bei bis zu 99 Prozent, ein vorzügliches Ergebnis. Es fußt auf zwei Verbesserungen: Zum einen ist das Vokabular mehr als doppelt so groß. Rund 300 000 Einträge zählt das „Bestmatch IV“ der aktuellen Version, 135 000 waren es bei „Bastmatch III“ in Dragon 10. Zum anderen wurde die Abtastrate des Mikrofons von 11 auf 22 Kilohertz ebenfalls verdoppelt, und so verschwinden viele Probleme mit undeutlich gesprochenen Wortendungen quasi von allein.

Schon wegen des größeren Vokabulars empfiehlt es sich nicht, ein altes Dragon-Profil für die neue Version zu aktualisieren. Man fange von vorn an. Bei uns arbeitete das neue 11er-Profil besser als das zwei Jahre lang gepflegte und persönlich angepasste 10er-Profil. Gegebenenfalls exportiere man seine Wortliste und importiere sie in die neue Version. Das gilt aber nur für Anwender, die ein eigenes opulentes Fachvokabular aufgebaut haben. Die typischen Schwierigkeiten sind übrigens in beiden Versionen gleich: Groß- und Kleinschreibung, Getrennt- und Zusammenschreibung, Abkürzungen, Produkt- und Eigennamen bereiten noch immer Kopfzerbrechen. Mit ein bisschen Erfahrung kennt man im Laufe der Zeit die Stolpersteine und wird dann beispielsweise „ist vom Feinsten“ dahingehend diktieren, dass man dem „Feinsten“ das Kommando „groß“ voranstellt.

Die neue Version erfüllt zudem viele alte Wünsche, an erster Stelle der Import von DSS-Pro-Dateien professioneller Diktiergeräte: das ist für Ärzte und Anwälte ein Schritt nach vorn. Um Handmikrofone der Hersteller Philips und Olympus perfekt einzubinden, benötigt man wie gehabt Zusatzsoftware, hier hat vor allem Philips mit seinem „Device Control Center“ gute Arbeit geleistet, es funktioniert auch mit Dragon 11 prima.

Die „Verarbeitungsanzeige“ während der laufenden Erkennung wurde durch ein kleines, sich drehendes Nuance-Symbol ersetzt, man wird also weniger abgelenkt. Deutlich einfacher gerät nun die Verwaltung unterschiedlicher Benutzerprofile, und bei der Korrektur sind ebenfalls zahlreiche Verbesserungen zu beobachten. Richtiges Korrigieren bleibt entscheidend für die Lernfähigkeit von Dragon – und hier wird leider der Einsteiger mit der zwar erweiterten, aber noch immer dürren Online-Hilfe nicht besonders weit kommen. Wer den Drachen perfekt beherrschen will, muss einem Profi über die Schulter gucken.

Jenseits der Erkennung gesprochener Texte hat Dragon Naturally Speaking auch bei der PC-Bedienung zugelegt: „Durchsuche Wikipedia nach Frankfurter Allgemeine Zeitung“ versteht die Software auf Anhieb, aber auch „Durchsuche Facebook nach Max Müller“. Für uns der wichtigste neue Befehl: „Programme auflisten“ zeigt alle geöffneten Windows-Fenster. Wir probierten das Programm mit einem Core-2-Duo-Prozessor T5250 (1,5 Gigahertz) unter Windows 7 sowie einem T6300 (1,8 Gigahertz) unter Windows XP – das geht gerade noch ordentlich, etwas mehr Rechenleistung kann nicht schaden. Endlich werden mit Version 11 auch Mehrkern-Prozessoren optimal angesprochen.

Die amerikanische Software ist in mehreren Varianten erhältlich: Die teuren juristischen und medizinischen Versionen sollte man ebenso wie Professional (830 Euro) nur im Fachhandel nach entsprechender Beratung kaufen. Die von uns geprüfte Premium-Variante für 200 Euro ist das Paket der Wahl für die meisten Käufer. Sie unterstützt mehrere Audioquellen an einem Benutzerprofil, ferner das Diktat in so gut wie alle Anwendungsprogramme, auch in Microsoft Word, Excel und Outlook sowie in Open Office Writer. Mit Googlemail funktioniert es nach Angaben des Herstellers ebenfalls, bei uns aber nicht zufriedenstellend. Skeptisch sind wir bei der Einsteigerversion „Home“ für 100 Euro mit stark reduziertem Funktionsumfang. Auch „Premium Mobile“, die für 300 Euro ein billiges Diktiergerät mitbringt, würden wir nicht nehmen.

Mit Dragon Naturally Speaking 11 erfasst der Vielschreiber seine Texte dreimal schneller als mit der Tastatur. Die Ausrede, Spracherkennung sei noch unausgereift, gilt nicht mehr. Die größte Hürde ist das Diktieren selbst, also die im Textverarbeitungszeitalter verlernte Fähigkeit, im Kopf klar zu formulieren.

Test: Olympus DS 5000 Diktiergerät (2008)

Einige Kleinode liegen auf dem Schreibtisch. Sie haben rund 600 Euro gekostet, und nun werden sie nach monatelangem Einsatz inspiziert. Dem teuren Handy sieht man den täglichen Gebrauch überdeutlich an: Kratzer auf der Display-Abdeckung, Staub hinter der Anzeige, und die Ecken sind angestoßen. Eine Taste wackelt leicht. Und nun das Kontrastprogramm: Das nicht weniger intensiv eingesetzte Diktiergerät sieht aus wie neu. Keine Kratzspuren, kein Staub, nichts. Und mit seiner exzellenten Verarbeitungsqualität begeistert es wie am ersten Tag. Wie kann es sein, dass ein solches Gerät der Oberklasse, dessen mechanischer Schiebeschalter jeden Tag einige tausend Mal strapaziert wird, so günstig ist, fragen wir uns.

Profi-Gerät: Olympus DS 5000 (Foto: Hersteller)

Das Olympus DS 5000 richtet sich an den Vieldiktierer, meist ein Arzt oder Anwalt. So wundert kaum, dass diese Pretiose höchsten Ansprüchen gerecht werden muss, wenn man berücksichtigt, dass sie an jedem Arbeitstag stundenlang in der Hand gehalten wird. Es ist das erste Olympus-Gerät mit DSS Pro, also mit verbesserter Akustik und Echtzeitverschlüsselung der Diktate, und der schärfste Konkurrent des Philips-Spitzengeräts DPM 9600 mit DSS Pro, das schon länger auf dem Markt ist und das wir hier noch einmal vergleichend hinzuziehen, weil sie die besten Diktiergeräte sind, die man derzeit kaufen kann.

Hinsichtlich Anmutung, Ergonomie, Verarbeitung und Bedienung gibt es kaum Kompromisse. Es sind keine Plastikspielzeuge aus der Ex- und Hopp-Welt der Elektronikmärkte, sondern hochwertige Arbeitsinstrumente für den Dauereinsatz. Das große, beleuchtete Display zeigt im Klartext alle Aktionen und Menüs unmissverständlich an, Olympus mit deutlich mehr Details. Beim DS 5000 lassen sich drei Tasten unterhalb der Anzeige (am PC mit der beiliegenden Software) programmieren, und zwar abhängig vom Menü-Status. Ein weiterer Pluspunkt ist der Schiebeschalter des DS 5000: ein Meisterstück der Feinmechanik. Er arbeitet im Unterschied zur Konkurrenz geräuschlos und fährt absolut leichtgängig und geschmeidig auf seine vier Positionen. Beim Philips hingegen ist deutlich mehr Widerstand zu spüren (was als taktile Rückmeldung sinnvoll sein kann). Beide Produkte visualisieren den Stand des Schalters auf ihrem Display, so dass der ungeübte Nutzer eine optische Rückmeldung bekommt.

Olympus und Philips spielen souverän alle Vorzüge der digitalen Diktiertechnik aus: Die stark eingedampften Sprachdateien lassen sich flink auf den PC kopieren, beim neuen Olympus superschnell dank USB High-Speed. Man kann mit Index-Markierungen arbeiten, sieht den Diktatfluss auf einem Laufband, es gibt eine sprachgesteuerte Aufzeichnung (mit variablem Auslösepegel) und nicht zuletzt eine regelbare Mikrofonempfindlichkeit (beim Philips in drei, beim Olympus in zwei Stufen mit besserer Nebengeräuschunterdrückung).

Beide Geräte sind im täglichen Umgang phantastisch, sie unterscheiden sich aber in Details. Während bei Philips alle Aufnahmen im Stammverzeichnis der Speicherkarte landen, bietet Olympus bis zu sieben Ordner (sie lassen sich gegebenenfalls ausblenden), um schon vor der Aufnahme thematisch oder nach Autor zu sortieren. Und man kann einen oder mehrere Ordner (am PC) so programmieren, dass alles, was darin landet, gleich verschlüsselt wird. Bei Philips wiederum muss man öfter ins Menü gehen, und die Dateiverschlüsselung lässt sich nicht fallweise, sondern nur für alle Diktate ein- oder ausschalten. Pluspunkte des DPM 9600 zeigen sich beim Vor- und Zurückspulen durch die Aufnahmen – hier ist es schneller und präziser als das DS 5000 – und beim Umgang mit Indexmarkierungen, die optisch auf dem virtuellen Laufband angezeigt werden.

Beide Diktiergeräte nutzen Secure-Digital-Medien, schon eine kleine 1-Gigabyte-Karte bietet Platz für mehr als 80 Stunden Aufnahme in höchster Qualität. Olympus spendiert seinem DS 5000 eine zweite Micro-SD-Karte, die mit chirurgischem Werkzeug aus dem Batteriefach herausgepfriemelt werden kann: Da Speicherplatz weder knapp noch teuer ist, sehen wir hier keinen Gewinn (es sei denn, dass es irgendwann Erweiterungen für den SD-Schacht geben würde) und den Nachteil, dass beim Andocken an Windows gleich zwei störende „Was soll ich nun mit dem Laufwerk anfangen?“-Meldungen aufploppen. Auch irritiert, dass man hier zwischen verschiedenen USB-Klassen umschalten muss.

Im Dauereinsatz hat das Olympus die längere Akkulaufzeit, die wir auf rund 25 Stunden schätzen (beim Philips etwa 10). Die Modellvariante DS-5000 iD (für 50 Euro Aufpreis) bietet zusätzlich einen Fingerabdruckscanner auf der Rückseite, der neben einer (optionalen) Pin-Code-Eingabe das Gerät bei Diebstahl schützt. Er speichert bis zu 10 Fingerabdrücke und funktioniert selten beim ersten Anlauf. Für das Diktieren im Auto ist er hinderlich, wir würden darauf verzichten.

Zum Lieferumfang gehört jeweils eine Docking-Station, in die das Gerät ohne Fummelei hineingesetzt und geladen wird, mit ihr erfolgt auch der Datentransport zum PC (wahlweise zusätzlich über Mini-USB). Was dann mit den Diktaten geschieht, ist eine Sache des digitalen Workflows in Kanzlei oder Praxis, der mittlerweile zu einer Wissenschaft für sich geworden ist. Um es in Kürze anzudeuten: Die Sprachdateien lassen sich automatisch anhand von Benutzerkennungen, die am Diktiergerät eingestellt wurden, per E-Mail oder FTP verschicken: beispielsweise an die Sekretärin im Haus oder ein externes Schreibbüro. Ganze Befehlsketten und Regeln sind programmierbar, auch in Abhängigkeit vom Diktierer und seinem Kürzel. Das alles macht die Philips-Software schnell, schlicht und schnörkellos. Olympus will deutlich mehr bieten, vor allem für Großunternehmen mit Hunderten von Nutzern. Aber das sehr ambitionierte „Dictation Module“ in der Version 5 ist derzeit noch nicht ausgereift, obwohl es schon verkauft wird. Wir werden darauf später zurückkommen.

Sowohl das Philips wie auch das Olympus sind für die Spracherkennung mit Dragon Naturally Speaking bestens geeignet. Wir empfehlen dann allerdings nicht die Software der beiden Hersteller, sondern „4 Voice Local“ (www.4voice.de, F.A.Z. vom 16. Oktober 2008), das eine flinke Umsetzung der Diktate mit „Drag & Drop“ erlaubt und übrigens auch die perfekte Einbindung der Handmikrofone beider Hersteller in Dragon. (F.A.Z. vom 19.08.08)

Test: Philips Diktiergerät DPM 9600 (2007)

Vor fast drei Jahren haben wir hier das bislang beste digitale Diktiergerät vorgestellt, das Olympus DS 4000. Hier stimmte einfach alles: Anmutung, Wertigkeit, Bedienung und Zubehör. Jetzt gibt es bei den Profi-Apparaten die nächste Generation. Unser neues Referenzgerät kommt diesmal von Mitbewerber Philips Speech Processing. Die Nummer eins im Gesamtmarkt des digitalen Diktierens und Nummer zwei bei den Handgeräten präsentiert das Digital Pocket Memo (DPM) 9600 für rund 595 Euro. Von der Optik her orientiert es sich an dem Olympus: Solide Metalleinfassung, ein großes Monochromdisplay und ein präzise arbeitender Schiebeschalter, der im täglichen Einsatz ein haptisches Vergnügen bietet. Aber dann sieht man schnell erste Unterschiede: Beim Philips liegen alle Bedienelemente vorn und an der rechten Seite, beim Olympus Lautstärke und Einschalter hinten.

Diktiertechnik für den Profi: Philips DPM 9600 (Foto: Hersteller)

Dann die inneren Werte: Das DPM 9600 ist das erste und einzige Gerät, das den neuen Aufzeichnungsstandard DSS Pro beherrscht. DSS ist eine Art MP3 für Sprache. Die Aufzeichnungen werden stark eingedampft, damit sie sich flink als E-Mail verschicken lassen, etwa an ein Schreibbüro. Trotzdem klingt DSS sehr ordentlich. Beim neuen DSS Pro – zum Jahresende auch bei Olympus – reicht der aufgenommene Frequenzbereich jetzt bis 8 statt bis 6 Kilohertz. Das Ergebnis ist hörbar besserer Klang, und nicht nur das: Musste man bislang bei der Spracherkennung via Dragon Naturally Speaking ein etwas schlechteres Ergebnis in Kauf nehmen, wenn das Diktat nicht von einem Headset oder Diktiermikrophon, sondern vom Handgerät kam, ist diese Einschränkung nun Vergangenheit. Nach unseren Versuchen erreicht DSS Pro die Güte eines Headsets, die Umsetzung von Dragon ist identisch. Man kann sich also bei der Spracherkennung ein eigenes Benutzerprofil fürs Diktiergerät sparen, dessen Erstellung sehr aufwendig war.

Der zweite Vorteil von DSS Pro ist die bei Bedarf wählbare Verschlüsselung aller Sprachdateien, und zwar in Echtzeit während des Diktats. Kommt das DPM 9600 in falsche Hände, sind die Sprachdateien geschützt. Auch das Gerät selbst lässt sich mit einer Pin sichern. Nachteil der neuen Pro-Version: Die Dateien sind etwa doppelt so groß. In Zeiten von DSL und UMTS kann man damit leben.

Weitere Vorzüge des Philips sind schnell aufgezählt: Als Speichermedium kommt die weitverbreitete Secure-Digital-Karte zum Einsatz, auf 2 Gigabyte (für 25 Euro, mitgeliefert wird ein 128-Megabyte-Medium) passen dann 240 Stunden in bester Qualität, der Akku lässt sich mit einem Mini-USB-Kabel via Netz oder Notebook laden, und man muss dafür nicht (wie bei Olympus) die Docking-Station mitnehmen. Zudem hält der Kraftspender ausgesprochen lange, nämlich bis zu 18 Stunden. Bei einem Grundig Digta 415 etwa ist er schon nach vier Stunden leer.

Hinsichtlich Bedienung und Ausstattung steht das DPM 9600 ebenfalls auf dem Siegertreppchen. Nicht nur, dass der Schiebeschalter einen sehr robusten Eindruck hinterlässt. Seine aktuelle Position (es gibt vier Stufen) ist zudem auf dem Display eingeblendet, während man beim Olympus dafür einen Blick auf die Rückseite werfen muss. Das Philips ist zudem in verschiedenen Varianten lieferbar. Das 9600 hat die internationale Schiebeschalter-Belegung wie bei Olympus, die sonst identische Schwester 9620 lässt sich auf die Modi „Grundig“ und den älteren Philips-Standard programmieren. So behält man also stets seine gewohnte Bedienung bei, wichtig für Vieldiktierer. Alle Details sind an Bord: Man kann mit Index-Markierungen arbeiten, sieht den Diktatfluss auf einem Laufband, es gibt eine sprachgesteuerte Aufzeichnung (mit variablem Auslösepegel), eine regelbare Mikrophonempfindlichkeit und eine Rauschunterdrückung, um den Frequenzbereich der menschlichen Stimme besonders gut hervorzuheben. Die beiden Tasten unterhalb der Anzeige arbeiten als Softkeys, wechseln also ihre Bedeutung je nach Menü. Besonders praktisch sind die detaillierte Dateiinformation und die ausgeklügelte Diktat-Verwaltung mit Stichworten.

Die mitgelieferte Software Speech Exec Pro ist mit ihren vielen Möglichkeiten geradezu erschlagend. Sie ist das Arbeitswerkzeug am Schreibplatz oder dient dazu, Diktate mit nur einem Knopfdruck an die Spracherkennung zu übergeben. Das klappt auch bei Aufzeichnungen im DSS-Pro-Format prima. Sprachdateien lassen sich automatisch anhand von Benutzerkennungen, die am Diktiergerät eingestellt wurden, per E-Mail oder FTP verschicken. Ganze Befehlsketten und Regeln sind programmierbar, auch in Abhängigkeit vom Diktierer und von seinem Kürzel. Um das Ganze auf die Spitze zu treiben, gibt es neben der mitgelieferten Docking-Station eine weitere mit LAN-Anbindung für 300 Euro extra. Das bedeutet dann beispielsweise im Krankenhauseinsatz, dass diese eine Station die unterschiedlichen Diktiergeräte der Ärzte aufnimmt und identifiziert und ganz ohne PC-Unterstützung über das Netz an die richtigen Schreibkräfte schickt. Natürlich lässt sich ein Barcode-Leser an das DPM 9600 anstecken, so dass mit Diktatbeginn gleich die Patienten- oder Klientennummer erfasst ist.

Alles in allem ist das DPM 9600 ein phantastisches Gerät für den Profi, der jeden Tag diktiert. Man kann sofort mit seiner ersten Aufzeichnung loslegen, und wenn man sich länger mit Apparat und Software beschäftigt, entdeckt man die vielen Möglichkeiten für einen effizienten Arbeitsablauf in Kanzlei oder Arztpraxis. (F.A.Z. vom 27.02.07)