Test: Ford Focus 2016 mit Sync 3, Applink und Touchscreen

Die Preisliste umfasst üppige 44 Seiten in kleiner Schrift, und wir haben für den Ford Focus einen Weg durchs Dickicht der Kommunikationstechnik geschlagen. Im Grunde genommen muss man nur eine einzige Entscheidung fällen: Benötigt man ein eigenständiges Navigationssystem, das unabhängig vom Smartphone jederzeit zur Verfügung steht, keine Mobilfunk-Anbindung erfordert und einfach zu bedienen ist?

Ford Focus Modelljahr 2016. Foto Hersteller

Wer diese Frage bejaht, weil er oft in ihm unbekannte Regionen fährt und auf der sicheren Seite bleiben will, bestelle das Ford Navigationssystem mit Ford Sync, Applink und Touchscreen. Das ist die lange Bezeichnung für ein Extra, das je nach Modellvariante zwischen 350 und 1600 Euro kostet. Auf der großen berührungsempfindlichen Anzeige mit einer Diagonale von 20,5 Zentimeter zeigt sich die elektronische Landkarte in schöner Übersicht, die Menüführung des Systems lässt kaum Fragen offen. Die Sync-Spracherkennung, die früher Dreh- und Angelpunkt des Ford-Systems war, erfasst fast alle Kommandos auf Anhieb und in einem Rutsch.

Ein Michelin-Reiseführer mit Hotel- und Restaurantinformationen gehört dazu, Darstellung und Ansagen sind gelungen. Abzüge gibt es für die Qualität der Verkehrsinfos, denn TMC Pro ist zwar besser als der Basisdienst TMC, kann aber mit den Echtzeitdaten anderer Anbieter nicht mithalten. Ein weiterer Minuspunkt: Im Telefonmodul fehlt eine Namenssuche, indes umschifft abermals die Ford-Spracherkennung diese Klippe.

Für ordentlichen Klang sorgen sechs Lautsprecher, und wir waren überrascht: Die Stimme von Gwen Stefani stand präzise und klar im Raum, gute Laune ist garantiert. Neugierig geworden, ließen wir schwere Kost vorfahren, Wagners Parsifal in der Solti-Einspielung von 1972. Gar nicht mal so schlecht, lautete das Urteil, wenngleich ein bisschen mehr Transparenz und Klarheit insbesondere den Mitten guttun würde. HiFi-Freunde sollten die Premium-Ausstattung Probe hören, sie bringt neun Sony-Lautsprecher mit: vier Tieftöner in den Türen, vier Hochtöner und ein weiterer auf dem Armaturenbrett. Der Fünf-Kanal-Audioverstärker leistet dann 125 Watt. Für einen Aufpreis von 700 bis 1200 Euro könnte sich dieses Extra lohnen.

Ford Sync 3 im Ford Focus. Foto Spehr

Soll es nicht die große und etwas teurere Lösung sein, weil man ohnehin nur selten in die Ferne schweift, reicht vielleicht die Smartphone-Lösung für den Focus: Sync 3 mit Applink und Touchscreen gehört entweder zur Serienausstattung oder kostet, je nach Modellvariante, zwischen 350 und 1400 Euro. Ein iPhone oder ein neuerer Androide mit Google-Betriebssystem müssen dazu per Kabel angebunden werden. Anschließend laufen Carplay oder Android Auto. Die Besonderheit der beiden Auto-Systeme aus Amerika hatten wir bereits des Öfteren geschildert: Sie übernehmen mit ihren Smartphone-Daten das Bordsystem, man bedient sie in erster Linie mit der Google- oder Apple-Sprachsteuerung. Es gibt nur wenige Optionen auf dem Display, das mit seiner reduzierten Darstellung und Funktionalität den Fahrer möglichst wenig ablenken soll. Das Navi von Google und Apple erfüllt durchaus seinen Zweck, lässt aber an Übersicht vermissen, das ist der größte Nachteil.

Vom Sommer an zieht noch ein dritter Assistent der amerikanischen Internetkonzerne in den Ford ein: Amazons Alexa wird derzeit in Sync integriert und ermöglicht im Auto das Abspielen von Hörbüchern, Musik und Nachrichten sowie eine Ortssuche oder das Einkaufen bei Amazon. Die sprachgesteuerten Amazon-Geräte für zu Hause (Echo oder Echo Dot) bieten die Option, noch in der Küche nach dem Kraftstoffvorrat des Autos zu fragen oder die Türen zu entriegeln. Eine schöne Zukunft mit Google, Alexa, Siri und Snyc. Man muss nur aufpassen, dass man jedem der vier Spracherkenner die richtigen Kommandos gibt. Sonst unterhalten sie sich vielleicht noch untereinander.

Weiterlesen auf FAZnet

Test: Mykie Küchenroboter fürs Smart Kitchen von Bosch und Siemens

Und wie verbindet sich das System mit anderen Online-Diensten? Diese kurze Frage führte selbst bei bestens geschulten Messehostessen nur zum Kopfschütteln. Auf der Living Kitchen, die in der vergangenen Woche in den Kölner Messehallen Neues nicht allein für Küche und Köche zeigte, war zwar scheinbar jedes nur denkbare Utensil vernetzt und mit App und iPad steuerbar. Aber die Tücke steckt im Detail: Was nützt der ans Internet angebundene Kühlschrank, der seinen Inhalt und die Temperatur dem Besitzer meldet, wenn sich die Konnektivität auf die Produkte eines einzigen Herstellers beschränkt? Vielleicht möchte man im vernetzten Heim der nahen Zukunft mit dem Amazon-Dash-Button seine Lebensmittel nachbestellen oder zumindest eine Schnittstelle zur elektronischen Einkaufsliste haben, die vielleicht mit Todoist, Evernote oder Wunderlist geführt wird?

Küchenhilfe: Mykie. Foto Hersteller

Angesichts fehlender Schnittstellen nach außen kocht jeder auf der Living Kitchen sein eigenes Süppchen. Das kann es ja wohl nicht sein. Doch schon kommt Abhilfe, Mykie ist nicht nur ein kleiner Roboter mit Spracherkennung, sondern dahinter steckt ein Konzept für die vernetzte Küche wie sie Bosch und Siemens sehen. Mykie ist die Abkürzung für My kitchen elf, ein etwa 30 Zentimeter hoher Hausgeist, welcher auf der Arbeitsfläche steht und sich mit angedeutetem Gesicht dem menschlichen Personal zuwendet.

Mykie soll als persönlicher Assistent beim Kochen und Backen helfen, aber er ist auch ein Paradigma für die Home-Connect-Idee der beiden Hersteller. Der Elfe ist also das User-Interface, die Ideen dahinter sind entscheidend. Dem Benutzer widmet sich Mykie wie ein Siri auf dem iPhone oder ein Amazon Echo im Wohnzimmer. Mykie hört zu, er nutzt eine Spracherkennung, er spricht, und seine Mimik mit den angedeuteten Augen passt sich ebenfalls der Situation an. Das kleine Kerlchen erklärt die nächsten Schritte beim Kochen, kann Rezepte und Ideen aus dem Internet abrufen, weiß natürlich, was sich im Kühlschrank befindet und was nachbestellt werden muss.

Mykie hat Zugriff auf alle vernetzten Haushaltsgeräte und regelt demnach die Temperatur des Backofens oder stellt die Dunstabzugshaube ein. Mit einem Monitor lassen sich Videos über Mykie aufrufen, man kann die Freunde oder andere zu einem Live-Chat dazu rufen und auf diese Weise quasi gemeinsam kochen. So sagte es zumindest die Messehostess, die routiniert mit dem Roboter plauderte. Allerdings ist Mykie zunächst eine Studie. „Er lernt noch“, hieß es in Köln. Deutlich weiter ist die dahinter stehende Plattform Home Connect, die seit 2014 ein offenes System für alle nur denkbaren Haushaltsgeräte und deren Vernetzung sein soll. Neben Bosch und Siemens sind eine ganze Reihe weiterer Partner an Bord, darunter Busch-Jaeger mit Schaltern, Sicherheitstechnik und Türkommunikation, aber auch das Nuimo-Bediensystem von Senic, der Küchenhersteller Tielsa sowie nicht zuletzt Amazon, IFTTT und Google.

Home Connect arbeitet mit W-Lan und Apps für Android und iOS; es erlaubt einen Zugriff auf die angeschlossenen Hausgeräte aus der Ferne. Die Entwickler wollen das Internet der Dinge ins Haus bringen. Vom Kaffeevollautomat über die Waschmaschine bis zum Kühlschrank werden bislang ein halbes Dutzend unterschiedlicher Gerätegattungen unterstützt. Wichtiger ist jedoch die Einbindung der Regelsysteme, wie sie etwa Amazons Alexa oder IFTTT bieten. Auf diese Weise lassen sich Befehlsketten mit der vorhandenen Hardware erstellen. If this than that, dafür steht das zweite Kürzel, erlaubt es zum Beispiel, dass das Licht mit Philips-Technik eingeschaltet wird, wenn der Bewegungsmelder von D-Link eine Person entdeckt hat. Das alles kann man nun für die Küche weiterdenken: Alexa von Amazon nimmt Befehle für den Backofen entgegen, und wenn die Milch alle ist, meldet das der Kühlschrank via IFTTT an die Einkaufsliste von Todoist, die wiederum automatisch mit allen Smartphones des vernetzten Haushalts synchronisiert wird.

Weiterlesen auf FAZnet

Test: Apple AirPods

Das weiße Pärchen fürs Ohr hat es uns angetan. Denn die Airpods-Stöpsel von Apple eignen sich nicht nur zum Musikhören. Sie sind intelligente Wearables.

Man kann es sich einfach machen und diese Bluetooth-Ohrenstöpsel als ein wie gehabt viel zu teures Apple-Produkt abtun. Andere Mitbewerber sind günstiger. 180 Euro verlangt Apple

Ohrcomputer: Apple AirPods neben iPhone-Modellen. Foto Hersteller

, und sie klingen nicht einmal herausragend. Doch das weiße Pärchen fürs Ohr hat es uns angetan. Die Funktionalität geht weit über die Musikwiedergabe und Telefonie hinaus. Eigentlich sind es Ohrcomputer. Sie warten brav in ihrem Häuschen auf den Einsatz, und wenn sie dann gefordert sind, verhalten sie sich so clever, als hätten sie eine eigene Intelligenz. Die Rede ist von den Airpods, die Apple Anfang September vorstellte und erst jetzt in kleinen Stückzahlen in den Handel kommen.

Die Airpods sind ein typisches Apple-Produkt, sie verzichten fast vollständig auf Bedienelemente, was den Umgang mit ihnen einfach macht. Muss man bei einem herkömmlichen Headset wissen, welche Taste fürs Bluetooth-Koppeln zu betätigen ist und welche die Wiedergabe startet, ist hier alles simpel: Man öffnet die mitgelieferte Ladebox (mit Lightning-Anschluss an der Unterseite) in der Nähe eines iPhones: Schon sind die Airpods für alle zum iCloud-Konto des Nutzers gehörenden Geräte angemeldet – und einsatzbereit.

 
Denn es gibt nicht einmal einen Ein- und Ausschalter. Man nimmt die beiden Stöpsel aus der Box, setzt sie ins Ohr, und sie werden automatisch aktiviert. Auch während laufender Musikwiedergabe oder eines Telefonats. Mit optischen Sensoren und Beschleunigungssensoren erkennen die Airpods, ob sie sich im Ohr befinden. Man kann sie im Monobetrieb einohrig betreiben, auch das wird selbsttätig detektiert, und wenn man den Stöpsel dann aus dem Ohr nimmt, pausiert die Musikwiedergabe.

Gut für Siri und Spracherkennung

Nach dem Koppeln werden die Airpods allein mit dem Finger bedient: Ein doppelter Fingertipp auf das Gerätchen aktiviert Siri, um beispielsweise mit Spracherkennung die Musik auszuwählen oder die Lautstärke zu regeln – oder jede andere Siri-Aufgabe zu starten. Die Lautstärke kann man natürlich auch mit den Seitentasten des iPhones steuern. Die Airpods eignen sich jedoch aus einem Grund besonders gut für Siri und Spracherkennung: Eine Nebengeräuscherkennung filtert Störendes heraus, und zwei Mikrofone sind bei solchen Rechentricks immer besser als eins. Wir konnten im fahrenden Auto (auf dem Beifahrersitz) nahezu fehlerfrei Whatsapp-Nachrichten diktieren.

Weiterlesen auf FAZnet

Volker Weber: Your questions about the AirPods

So geht’s: Straßennavigation mit dem iPhone und Siri – Sprachbefehle zur Navi-Bedienung

Mit iOS 6 hat Apples Smartphone-Betriebssystem für das iPhone 5 und 4S eine Straßennavigation mit Abbiegehinweisen erhalten. Auch wenn Apples Karten zu Recht kritisiert werden: Das Gratis-Navi arbeitet ordentlich, und es lässt sich ohne jede Fahrerablenkung allein mit Sprachbefehlen verblüffend gut bedienen. Nur ist einige Tüftelei angesagt. „Navigiere nach Hamburg“ kann bisweilen funktionieren, oder auch nicht. Dann kommt die kuriose Fehlermeldung, dass einige Orte mit „Giere“ in der Nähe von Hamburg gefunden wurden.

Sonderzielsuche: Auf die richtigen Kommandos kommt es an (Foto Spehr)

Erfolgreich ist das Kommando „Zeig mir den Weg nach Hamburg“ oder vollständig „Zeig mir den Weg nach Hamburg Musterweg 99„. Ist die Adresse von Klaus Mustermann im eigenen Adressbuch hinterlegt, lautet das Kommando „Zeig mir den Weg nach Klaus Mustermann„, bei Fehlermeldungen stelle man Vor- und Nachnamen um.

Bei der Sonderzielsuche funktioniert „Zeig mir den Weg nach Alte Oper Frankfurt“ oder „… Palmengarten Frankfurt“. „Zeig mir den Weg zur nächsten Tankstelle“ funktioniert aber nicht. „Zeig mir den Weg“ wird dann kurioserweise als Straßenname im aktuellen Ort interpretiert. Hier nehme man „Wo ist die nächste Tankstelle„. Analog funktionieren „Wo ist das nächste Parkhaus„, „Wo ist der nächste Supermarkt„, „Wo ist das nächste Krankenhaus“ und so weiter.

Was kaum ein fest eingebautes Navigationssystem der Oberklasse beherrscht, ist die leidige Suche nach Erdgastankstellen: „Wo ist die nächste Erdgastankstelle“ lautet abermals das Kommando. Mit „Zeige Staus“ kann man sich während der Routenführung über die aktuelle Verkehrslage informieren lassen, soweit sie die Apple-Navigation kennt. Informationen zu öffentlichen Verkehrsmitteln sind in der Karten-App noch nicht hinterlegt.

 

Test: Dragon NaturallySpeaking 12 von Nuance

„Neuer Termin mit Martin nächste Woche Dienstag 12 Uhr“: Schon dieser eine Satz demonstriert beispielhaft die Leistungsfähigkeit einer modernen Spracherkennung. Er ist in weniger als fünf Sekunden diktiert und führt nahezu unmittelbar zu einem Eintrag im elektronischen Kalender. Ohne Spracherkennung dauert es immer länger: Das Starten des Terminkalenders, die Suche des passenden Datums und das Eintippen der Details ist viel mühseliger, als seinem Smartphone neun Wörter vorzusprechen.

Ihre frappierende Leichtigkeit hat Apples Sprachassistentin Siri so populär gemacht. Aber sie ist ja auch mehr als eine Spracherkennung, die Gesprochenes in Schriftliches überführt. Siri nimmt zusätzlich eine semantische Analyse des Inhalts vor, und anhand bestimmter Schlüsselbegriffe wie „Termin“ erfolgt automatisch die Umsetzung in Aktionen, wie der Eintrag im Terminkalender oder das Abrufen des Wetterberichts.

Siri läuft derzeit nur auf dem iPhone 4S. Wer jedoch das iPad 3 oder auf dem Mac-Rechner das aktuelle Apple-Betriebssystem Mountain Lion einsetzt, kann zumindest die Diktatfunktion, also die reine Spracherkennung, ebenfalls verwenden. Wo immer der Cursor gerade steht: Man diktiert, der Audio-Schnipsel wird via Internet auf Server von Apple übertragen, dort transkribiert, und der Text kommt retour. Apple verwendet für seine Spracherkennung die Technik des amerikanischen Herstellers Nuance, der hier seit mehr als zehn Jahren Marktführer ist. Der Charme dieser Lösung besteht darin, dass sie geradezu unmittelbar zur Verfügung steht. Man muss keine Software installieren, kein Benutzerprofil anlegen, nichts neu lernen, sondern kann einfach loslegen. Die Erkennungsrate ist sehr hoch, die Ergebnisse sind verblüffend gut.

Vergleicht man die drei Apple-Plattformen, ist die Performance nahezu identisch. Der Mac-Rechner mit flinken Prozessoren ist dem iPad 3 keineswegs überlegen. Auf allen drei Systemen sind auch ähnliche Fehler und Einschränkungen zu beobachten. Zum Beispiel die falsche Großschreibung, wenn man im Satz innegehalten hat. Und die Restriktionen sind ebenfalls nicht zu übersehen: Der Erkenner erlaubt nicht das Anlernen oder Training ihm unbekannter Begriffe, er versteht kein Fachvokabular, und man kann nur abschnittweise diktieren, weil ja jeder Satz oder Halbsatz nach Amerika geschickt wird, was nicht jeder goutiert.

Für professionelles Diktieren längerer Texte oder die Umsetzung von Diktaten, die zuvor aufgenommen wurden, ist das Apple-System ungeeignet. Es wird nur dann besser, wenn Apple die Algorithmen auf seinen Servern verbessert. In Amerika beklagen sich sogar viele Nutzer, dass Siri in den vergangenen Monaten schlechter geworden sei. Man wird also mit diesem semiprofessionellen System auf den Geschmack gebracht. Schnell gibt es Appetit auf mehr, und dann ist eine Software gefragt, die auf dem eigenen PC läuft, ein umfangreiches und ergänzbares Wörterbuch mitbringt, für bestimmte Berufsgruppen ein Fachvokabular und vieles andere mehr.

Wer Höchstleistungen sucht, benötigt einen aktuellen Rechner

Wer jedoch nach ein paar Runden im Porsche 911 die Leistung eines Formel-1-Boliden sucht, kommt um ein Fahrertraining nicht herum. Zum Glück hat Nuance bei seiner Windows-Software Dragon Naturally Speaking in den vergangenen Jahren viel getan, um die Hürden des Einstiegs zu senken. Dragon ist der Maßstab und die Referenz, es gibt keine andere Software mit vergleichbarer Leistungsfähigkeit, man mag diese Monopolstellung bedauern.

Mit der neuen Version 12, die seit Ende August im Handel ist, beschränkt sich die Inbetriebnahme nach der Installation auf ein fünfminütiges Diktat, mit dem der Erkenner den individuellen Sprachstil analysiert. Die viel größere Hürde im Alltagseinsatz ist die Fülle der Möglichkeiten und Optionen. Mit dem Drachen kann man ein Windows-System durchgängig mit Sprache steuern, eine Outlook-E-Mail verfassen oder Word-Kommandos aufrufen. Das alles will aber geübt sein – ungeachtet der zahlreichen Hilfestellungen.

Der neue Drachen bringt ein abermals verbessertes akustisches Modell mit, das nun Best Match V heißt. Dieses verlangt einen Mehrkernprozessor und mindestens 4 Gigabyte Arbeitsspeicher. Wir probierten Dragon 12 mit einem älteren Core-2-Duo-PC und zwei Gigabyte Speicher. Hier wurde uns Best Match IV empfohlen, wir nahmen trotzdem das neue Akustikmodell – und die Arbeitsgeschwindigkeit brach deutlich ein. Wer Höchstleistungen sucht, benötigt also einen aktuellen Rechner. Mit dem Core-i5 und 8 Gigabyte Arbeitsspeicher hatten wir keine Probleme. Das neue Best-Match-Modell soll um bis zu 18 Prozent verbesserte Erkennungsleistung bieten, sagt das Marketing von Nuance, eine saloppe Formulierung, die man jedoch so nicht stehen lassen kann.

Genauigkeit bei bis zu 99 Prozent

Berücksichtigt man, dass eine Spracherkennung nur jene Begriffe fehlerfrei umsetzen kann, die in ihrem Vokabular gespeichert sind, hängt die Beurteilung von den Texten und den Inhalten ab. Eine prägnante Zusammenfassung der Art „98 Prozent Genauigkeit“ ist also unsinnig. Ein Arzt, Anwalt oder Gutachter, der für seine Diktate ein begrenztes Fachvokabular verwendet und dies sinnvollerweise gleich mit Dragon dazukauft, erreicht spielend 99 Prozent und mehr. Ein Dragon-Nutzer mit einem reichhaltigen und ungewohnten Vokabular, sagen wir ein Schriftsteller oder Journalist, wird darunter liegen. Er wird vermutlich eigene Ad-hoc-Begriffe (wie diesen hier) verwenden und vielleicht nur einmal und dann nie wieder. Kein Wörterbuch kann da mithalten.

Wie gut die Erkennungsleistung von Dragon 12 im Vergleich mit der Vorgängerversion ist, haben wir also mit unseren eigenen Diktaten ermittelt, das ist eine subjektive Komponente im Test. Aber wir suchten reproduzierbare Ergebnisse. Deshalb wurde aus Hunderten von Diktiergerät-Aufzeichnungen im DSS-Pro-Format eine repräsentative Auswahl erstellt. Neben kurzen, knappen E-Mails auch längere mit privatem Inhalt, Nachrichtenmeldungen, das Protokoll einer Testfahrt im Auto, und spaßeshalber ein „abdiktierter“ wissenschaftlicher Aufsatz aus der DDR-Geschichtsschreibung in einer aus heutiger Sicht inakzeptablen Sprache.

Dragon Naturally Speaking 12: Bis in die kleinsten Verästelungen hinein anpassbar (Foto Spehr)

Ein und dieselbe Diktatdatei ließen wir der Reihe nach erkennen, und zwar mit der alten und der neuen Version, so wie sie der Nutzer nach der Installation vorfindet (also ohne benutzerspezifische Anpassungen). Die Ergebnisse: Etwa jeder zehnte Fehler wurde ausgemerzt, die Genauigkeit liegt – je nach Text – bei bis zu 99 Prozent.

Die „Premium“-Variante sollte es mindestens sein

Vor zwei Jahren konnten wir bei der Vorstellung der Version 11 festhalten, dass die Fehlerrate halbiert wurde. Der Fortschritt schreitet also um so langsamer voran, je perfekter die Erkennung wird. Die typischen Probleme sind übrigens gleich geblieben: Groß- und Kleinschreibung, Getrennt- und Zusammenschreibung, Abkürzungen, Produkt- und Eigennamen bereiten noch immer Kopfzerbrechen. Aber mit der „richtigen“ Nutzung der Korrekturbefehle und zunehmender Adaption an das Nutzervokabular verschwindet mancher Fehler. Und mit ein bisschen Erfahrung kennt man im Laufe der Zeit die Stolpersteine und wird dann beispielsweise „ist vom Feinsten“ dahingehend diktieren, dass man dem „Feinsten“ das Kommando „groß“ voranstellt.

Eine häufige Fehlerklasse wurde indes ausgemerzt: Mit einer Option kann man Personalpronomen der 2. Person („Du“, „Dich“) immer groß schreiben lassen und mit einer weiteren kontextabhängig auch die der 3. Person („Sie“, „Ihnen“). Das ist ebenso ein Gewinn wie „Smart Format“, eine Funktion, die sich einmalige Korrekturen einer Schreibweise („Kilogramm“ statt „kg“) permanent merkt. Etliche kleinere Verbesserungen betreffen ferner die Steuerung eines E-Mail-Systems im Browserfenster, das zu diesem Zweck mit einer Erweiterung versehen sein muss.

Wie gehabt läuft Dragon 12 selbst mit Windows XP; zwei Gigabyte Arbeitsspeicher sind indes Pflicht. Weiterlesen auf FAZnet

Der neue 7er von BMW: Das erste Auto mit E-Mail-Spracherkennung à la Siri

Ende Juli kommt der 7er von BMW mit einem Facelift auf den Markt, die wichtigsten Verbesserungen betreffen die Kommunikationstechnik. Erstmals in der Werksausstattung gibt es eine Spracherkennung für E-Mail und SMS, die BMW kurioserweise „Freitextspracherkennung“ nennt. Der Hersteller wird nicht in der Pressemeldung genannt, es ist nach meinen Informationen Nuance, die auch an Apples Siri beteiligt sind.

Auszüge aus der Pressemeldung:

„Mit der neuen Generation des Navigationssystems Professional komplettiert eine Freitextspracherkennung sowie eine optimierte Sprachsteuerung das Angebotsportfolio der Officefunktionalitäten von Connected Drive. …  Durch eine Freitextspracherkennung ermöglicht die Diktierfunktion dem Fahrer erstmals, im Fahrzeug kurze Textnachrichten zu „schreiben“ – einfach, indem er sie spricht. Bereits wenige Sekunden nach der Spracheingabe erscheint der erkannte Text im Display und wird auf Wunsch vorgelesen. Selbstverständlich stehen dem Fahrer auch einfache, sprachbasierte Editierungsmöglichkeiten zur Verfügung, um komfortabel und vor allem sicher E-Mails und Kurznachrichten zu erstellen. Das System ist multilingual und erkennt aktuell sechs Sprachen.

„Eine weitere sprachbasierte Funktion rund um die Officefunktionalitäten ist das Aufnehmen von Sprachnotizen. Diese können bei Bedarf direkt über E-Mail verschickt werden. Der große Vorteil besteht für den Fahrer hier in der schnellen Konservierung von Ideen oder To-Dos mit der Möglichkeit, sie an die jeweiligen Adressaten weiterzuleiten – und das ohne Ablenkung vom Verkehrsgeschehen. Auf Wunsch lassen sich die aufgenommenen Notizen auch per USB-Stick einfach aus dem Fahrzeug mitnehmen.“

 

Der neue 7er von BMW (Foto Hersteller)

Weitere Highlights des neuen 7er BMW:

  • Multifunktionales Instrumentendisplay, „virtuelle Anzeigen“ in verschiedenen Farben
  • 3D-Darstellung der Menüs
  • iDrive mit 1,3 GHz-Prozessor (keine genauen Angaben) und „eigener 3D-Grafikkarte“ (keine weiteren Angaben)
  • Neu gestaltetes Kontextmenü (PIE-Menü), das mit dem Controller aufzurufen ist
  • Speed Limit Info und Überholverbotsanzeige mit Kamera

Semantik und Anthropomorphisierung: Worauf der Erfolg von Apples Siri basiert

„Alles spricht dafür, dass es Schokolade ist“, antwortet Siri auf die Frage nach dem Sinn des Lebens. Wenn sie etwas gesprächiger ist, hört man auch: „Das ist einfach: Es ist eine philosophische Frage über den Zweck und die Bedeutung des Lebens oder der Existenz im Allgemeinen.“ Diese Anekdoten über die Sprachbedienung des neuen iPhone 4S machen derzeit die Runde. Siri gilt als Revolution, als tolle Erfindung aus dem Hause Apple. Aber was steckt wirklich dahinter?

Wenn es um die Erkennung von Sprache geht, darf man zunächst festhalten, dass die Technik nicht neu ist. Spracherkennung am PC gibt es seit mehr als zehn Jahren, für Smartphones seit mindestens fünf. Sie führte allerdings nur eine Nischenexistenz. Ärzte und Anwälte diktieren, weil es schneller geht als die manuelle Texteingabe. Zeit und Geld sind die wichtigste Motivation, sich mit einer Technik auseinanderzusetzen, die als sperrig gilt. Denn so locker und lässig wie mit Siri funktioniert das Ganze am PC nicht.

Es sind also bestimmte „Zutaten“, mit denen Apple nun auftrumpft. Das sind an erster Stelle die kleinen Sperenzchen, wie etwa die Möglichkeit, nach der Wettervorhersage für eine bestimmte Stadt fragen zu können. Was nach Spielerei aussieht, hat jedoch Sinn. Es ist nicht nur der Kunstgriff des Anthropomorphismus, der Siri menschliche Eigenschaften zusprechen soll. Apple macht vor allem den Einstieg in eine Technik einfach, die für die meisten Nutzer fremd ist. Wie wichtig dieser saloppe Anfang ist, weiß man spätestens bei der Inbetriebnahme einer professionellen Software wie Dragon Naturally Speaking. Hier ist eine Hürde zu nehmen, nämlich das Erstellen eines persönlichen Benutzerprofils durch ein längeres Probediktat. Erst danach stellen sich Erfolgserlebnisse ein. Bei Siri ist es genau umgekehrt: Zunächst spielt man, dann entsteht der Wunsch nach „mehr“.

Nach der Suchmaschine: Siri gibt Antworten (Foto Spehr)

Der zweite Vorzug der Apple-Lösung ist die semantische Analyse, die in der Tat als Alleinstellungsmerkmal gelten darf. Diktiert man einem neuen Windows-Smartphone „Neuer Termin übermorgen um 10 Uhr mit Max Muster“, wird es unter guten Bedingungen das Gesagte fehlerfrei transkribieren und auf dem Display anzeigen. Aber es kann mit dem Inhalt nichts anfangen – und startet hilflos eine Internetsuche nach dem Text in Anführungszeichen. Kein besonders pfiffiges Verfahren. Siri hingegen erstellt einen Terminvorschlag mit dem Teilnehmer Max Muster und setzt das „übermorgen“ automatisch in ein Kalenderdatum um. Siri funktioniert zwar nur in gewissen Grenzen. Aber die inhaltliche Auswertung des Gesagten zeigt überdeutlich in eine Richtung, die traditionelle Spracherkenner bisher nur in Ansätzen genommen haben: Das Zulassen von Variabilität bei Eingaben und Kommandos. Damit wird der Vorhang aufgerissen für ganz neue Möglichkeiten der Spracherkennung. Herkömmliche Systeme fokussieren sich auf die Identifizierung des Gesagten, die möglichst hohe Erkennungsleistung steht im Vordergrund. Mit diesem Ansatz erzielt man wunderbare Ergebnisse bei der Erfassung von längeren Texten. Aber es gelingen einfachste Dinge nicht – oder nur auf Umwegen. Das Erstellen eines Outlook-Kalendereintrags in der übernächsten Woche am Mittwoch wird selbst der geübte Dragon-Experte an seinem PC nicht ohne Blick auf den Papierkalender absolvieren können. Denn der Drachen kann „übernächste Woche Mittwoch“ nicht in ein Datumsformat umsetzen. Mit Siri wird die Übung dank semantischer Analyse zu einem Kinderspiel.

Nun fragt man sich natürlich, warum andere Entwickler nicht früher auf solche Ideen gekommen sind. Es ist jedoch nicht Apples Klugheit, sondern die Geschlossenheit seines Ökosystems, die einen Geniestreich wie Siri ermöglichte. Eine PC-Software wie Dragon muss sich nicht nur auf drei verschiedenen Windows-Plattformen behaupten, sondern arbeitet auch mit nahezu jedem Kalender-System zusammen, mit einem älteren oder neueren Outlook, aber auch mit ungezählten anderen Programmen und sogar einem Kalender, der allein im Web-Browser läuft.

Gleiches gilt für Wettervorhersage, E-Mail, Notizen und anderes: Was auf dem PC zerfasert und in ganz unterschiedlichen Varianten vorliegt, ist auf dem iPhone in einer fest definierten Systemarchitektur implementiert. Und von dieser oft kritisierten Monokultur profitiert die Sprachbedienung ungemein. Sie kann Erkanntes einzelnen Modulen zuordnen und verheddert sich nicht in der Vielfalt unterschiedlicher und in den Details inkompatibler Verwaltungssysteme. Selbst wenn Dragon Naturally Speaking von seinem Hersteller um ein Semantikmodul ergänzt werden würde, wüsste es noch nicht, ob bei „sage Klaus, ich bin gleich da“ eine Chat-Meldung, eine Facebook-Nachricht oder eine E-Mail gemeint ist.

Der dritte Pluspunkt von Siri ist die aktive Recherche. Wir sind es gewohnt, dass ein Computer nach einer Eingabe mit einer definierten Ausgabe reagiert. Die Google-Suchmaschine gibt beispielsweise eine Handvoll Links aus – mehr nicht. Nun muss der Nutzer sortieren, einordnen und auswählen, welche Ergebnisse zur Beantwortung seiner Anfrage relevant oder sinnvoll sind. Siri hingegen gibt Antworten. Nicht durchgängig, aber zumindest tendenziell, und vor allem in der amerikanischen Version weitaus öfter als in der deutschen. Der dritte Präsident der Vereinigten Staaten war Thomas Jefferson, und das weiß das amerikanische Siri dank einer Abfrage der Datenbanken von Wolfram Alpha. Die gleichlautende Google-Suche bringt an erster Stelle nur eine Liste der Präsidenten der Vereinigten Staaten hervor, auf dass man selbst klicke und nachsehe. Dieser zunächst klein erscheinende Unterschied wird ein großer, je komplexer die Fragen und je besser die Antworten Siris werden. Google sieht plötzlich sehr alt aus, zumal Siri auch gelegentlich Rückfragen stellt, um den Gegenstand weiter einzukreisen. Das alles wird die Technik des Suchens nicht nur auf Mobilgeräten grundlegend ändern. Das Hilfsmittel „Suchmaschine“ hat sich überlebt.

Siri führt einem breiten Publikum vor Augen, dass die Spracherkennung den Erwartungshorizont der um sie rankenden Utopien schon lange erreicht hat. Im täglichen Einsatz mit dem iPhone 4S ändert sich einiges: Man ist mit dem Diktieren fast immer schneller und besser bedient als mit fingerfertigen Übungen auf dem Display. Die Frage ist nicht mehr, ob und wie gut die Technik funktioniert, sondern ob man gewillt ist, in aller Öffentlichkeit oder zumindest im Büro mit seinem iPhone zu sprechen. Es geht allein um die soziale Akzeptanz. Wer die Idee für abstrus hält, denke zurück an eine Bürowelt ohne Telefone im 19. Jahrhundert.

Auch am PC wird sich die Spracherkennung ändern. Dragon-Hersteller Nuance ist schon jetzt dabei, sein schweres Flaggschiff leichter bedienbar zu machen, ein „Dragon Express“ für den Mac wurde unlängst in den Vereinigten Staaten vorgestellt. Am Ende benötigt ein sprachbedienter Computer jedoch unabdingbar ein neues Betriebssystem, das sich stärker auf die Inhalte fokussieren und den lästigen Verwaltungsunterbau, der unsere heutigen PCs aus historischen Gründen prägt, weitgehend ausblenden wird. Darin wird in der Rückschau der Erfolg von Siri liegen.

Apples Siri auf dem iPhone 4S im Auto mit Bluetooth-Freisprechern nutzen

Nach meinen bisherigen (kurzen) Erfahrungen gibt es keine gravierenden Probleme mit den gängigen Bluetooth-Freisprechanlagen im Auto. Etwas länger habe ich das iPhone 4S mit dem Comand-System in der neuen E-Klasse von Mercedes-Benz ausprobiert.

Der Siri-Sprachassistent kann sich gerade im Auto besonders nützlich machen. Etwa zum Diktieren von E-Mail oder SMS, zur Abfrage von Kalendereinträgen oder zum Erstellen von Erinnerungen. Wer allein fährt, kann also im Auto mit Siri sprechen und seine Dinge organisieren. Hier einige Hinweise:

1. Das iPhone 4S wie jedes andere Bluetooth-Telefon ankoppeln. Für Siri-Eingaben ist jetzt das Mikrofon des Fahrzeugs aktiviert und zuständig.

2. Für Siri nicht die Spracherkennungs-Taste des Fahrzeugs betätigen, sondern die Home-Taste des iPhone 4S länger drücken. Das funktioniert auch mit aktivem Sperrbildschirm.

3. Das gewünschte Kommando („Welche Termine habe ich heute“, „E-Mail schreiben an Klaus Mustermann“, „Erinnere mich an Blumen für die Sekretärin“) in das Fahrzeug-Mikrofon sprechen.

4. Siri zeigt erkannte Kommandos und Befehle nicht nur auf dem iPhone-Bildschirm an, sondern antwortet mit Sprachausgabe. Unter „Einstellungen“, „Allgemein“, „Siri“ gibt es den Menüeintrag „Sprach-Feedback“. Hier kann man den Menüpunkt „Nur Freisprecheinrichtung“ wählen. Das heißt: Siris Sprachausgabe ist nur mit aktiver Bluetooth-Kopplung eingeschaltet. Sonst bleibt es bei der Bildschirmdarstellung.

5. Beim Einsatz im Auto ist zu beachten, dass sämtliche Befehle, Kommandos, Texteingaben über eine Mobilfunkverbindung auf Apple-Servern transkribiert werden. Wenn die Datenverbindung des iPhone 4S nicht funktioniert, gelingt auch die Spracherkennung nicht. Es ist nicht ungewöhnlich, dass man einem Ort zwar telefonieren kann, sich aber eine Datenverbindung nicht aufbauen lässt.

6. Marginalie: Bei der Musikwiedergabe mit A2DP im Mercedes gab es gelegentlich kurze Aussetzer.