Semantik und Anthropomorphisierung: Worauf der Erfolg von Apples Siri basiert

„Alles spricht dafür, dass es Schokolade ist“, antwortet Siri auf die Frage nach dem Sinn des Lebens. Wenn sie etwas gesprächiger ist, hört man auch: „Das ist einfach: Es ist eine philosophische Frage über den Zweck und die Bedeutung des Lebens oder der Existenz im Allgemeinen.“ Diese Anekdoten über die Sprachbedienung des neuen iPhone 4S machen derzeit die Runde. Siri gilt als Revolution, als tolle Erfindung aus dem Hause Apple. Aber was steckt wirklich dahinter?

Wenn es um die Erkennung von Sprache geht, darf man zunächst festhalten, dass die Technik nicht neu ist. Spracherkennung am PC gibt es seit mehr als zehn Jahren, für Smartphones seit mindestens fünf. Sie führte allerdings nur eine Nischenexistenz. Ärzte und Anwälte diktieren, weil es schneller geht als die manuelle Texteingabe. Zeit und Geld sind die wichtigste Motivation, sich mit einer Technik auseinanderzusetzen, die als sperrig gilt. Denn so locker und lässig wie mit Siri funktioniert das Ganze am PC nicht.

Es sind also bestimmte „Zutaten“, mit denen Apple nun auftrumpft. Das sind an erster Stelle die kleinen Sperenzchen, wie etwa die Möglichkeit, nach der Wettervorhersage für eine bestimmte Stadt fragen zu können. Was nach Spielerei aussieht, hat jedoch Sinn. Es ist nicht nur der Kunstgriff des Anthropomorphismus, der Siri menschliche Eigenschaften zusprechen soll. Apple macht vor allem den Einstieg in eine Technik einfach, die für die meisten Nutzer fremd ist. Wie wichtig dieser saloppe Anfang ist, weiß man spätestens bei der Inbetriebnahme einer professionellen Software wie Dragon Naturally Speaking. Hier ist eine Hürde zu nehmen, nämlich das Erstellen eines persönlichen Benutzerprofils durch ein längeres Probediktat. Erst danach stellen sich Erfolgserlebnisse ein. Bei Siri ist es genau umgekehrt: Zunächst spielt man, dann entsteht der Wunsch nach „mehr“.

Nach der Suchmaschine: Siri gibt Antworten (Foto Spehr)

Der zweite Vorzug der Apple-Lösung ist die semantische Analyse, die in der Tat als Alleinstellungsmerkmal gelten darf. Diktiert man einem neuen Windows-Smartphone „Neuer Termin übermorgen um 10 Uhr mit Max Muster“, wird es unter guten Bedingungen das Gesagte fehlerfrei transkribieren und auf dem Display anzeigen. Aber es kann mit dem Inhalt nichts anfangen – und startet hilflos eine Internetsuche nach dem Text in Anführungszeichen. Kein besonders pfiffiges Verfahren. Siri hingegen erstellt einen Terminvorschlag mit dem Teilnehmer Max Muster und setzt das „übermorgen“ automatisch in ein Kalenderdatum um. Siri funktioniert zwar nur in gewissen Grenzen. Aber die inhaltliche Auswertung des Gesagten zeigt überdeutlich in eine Richtung, die traditionelle Spracherkenner bisher nur in Ansätzen genommen haben: Das Zulassen von Variabilität bei Eingaben und Kommandos. Damit wird der Vorhang aufgerissen für ganz neue Möglichkeiten der Spracherkennung. Herkömmliche Systeme fokussieren sich auf die Identifizierung des Gesagten, die möglichst hohe Erkennungsleistung steht im Vordergrund. Mit diesem Ansatz erzielt man wunderbare Ergebnisse bei der Erfassung von längeren Texten. Aber es gelingen einfachste Dinge nicht – oder nur auf Umwegen. Das Erstellen eines Outlook-Kalendereintrags in der übernächsten Woche am Mittwoch wird selbst der geübte Dragon-Experte an seinem PC nicht ohne Blick auf den Papierkalender absolvieren können. Denn der Drachen kann „übernächste Woche Mittwoch“ nicht in ein Datumsformat umsetzen. Mit Siri wird die Übung dank semantischer Analyse zu einem Kinderspiel.

Nun fragt man sich natürlich, warum andere Entwickler nicht früher auf solche Ideen gekommen sind. Es ist jedoch nicht Apples Klugheit, sondern die Geschlossenheit seines Ökosystems, die einen Geniestreich wie Siri ermöglichte. Eine PC-Software wie Dragon muss sich nicht nur auf drei verschiedenen Windows-Plattformen behaupten, sondern arbeitet auch mit nahezu jedem Kalender-System zusammen, mit einem älteren oder neueren Outlook, aber auch mit ungezählten anderen Programmen und sogar einem Kalender, der allein im Web-Browser läuft.

Gleiches gilt für Wettervorhersage, E-Mail, Notizen und anderes: Was auf dem PC zerfasert und in ganz unterschiedlichen Varianten vorliegt, ist auf dem iPhone in einer fest definierten Systemarchitektur implementiert. Und von dieser oft kritisierten Monokultur profitiert die Sprachbedienung ungemein. Sie kann Erkanntes einzelnen Modulen zuordnen und verheddert sich nicht in der Vielfalt unterschiedlicher und in den Details inkompatibler Verwaltungssysteme. Selbst wenn Dragon Naturally Speaking von seinem Hersteller um ein Semantikmodul ergänzt werden würde, wüsste es noch nicht, ob bei „sage Klaus, ich bin gleich da“ eine Chat-Meldung, eine Facebook-Nachricht oder eine E-Mail gemeint ist.

Der dritte Pluspunkt von Siri ist die aktive Recherche. Wir sind es gewohnt, dass ein Computer nach einer Eingabe mit einer definierten Ausgabe reagiert. Die Google-Suchmaschine gibt beispielsweise eine Handvoll Links aus – mehr nicht. Nun muss der Nutzer sortieren, einordnen und auswählen, welche Ergebnisse zur Beantwortung seiner Anfrage relevant oder sinnvoll sind. Siri hingegen gibt Antworten. Nicht durchgängig, aber zumindest tendenziell, und vor allem in der amerikanischen Version weitaus öfter als in der deutschen. Der dritte Präsident der Vereinigten Staaten war Thomas Jefferson, und das weiß das amerikanische Siri dank einer Abfrage der Datenbanken von Wolfram Alpha. Die gleichlautende Google-Suche bringt an erster Stelle nur eine Liste der Präsidenten der Vereinigten Staaten hervor, auf dass man selbst klicke und nachsehe. Dieser zunächst klein erscheinende Unterschied wird ein großer, je komplexer die Fragen und je besser die Antworten Siris werden. Google sieht plötzlich sehr alt aus, zumal Siri auch gelegentlich Rückfragen stellt, um den Gegenstand weiter einzukreisen. Das alles wird die Technik des Suchens nicht nur auf Mobilgeräten grundlegend ändern. Das Hilfsmittel „Suchmaschine“ hat sich überlebt.

Siri führt einem breiten Publikum vor Augen, dass die Spracherkennung den Erwartungshorizont der um sie rankenden Utopien schon lange erreicht hat. Im täglichen Einsatz mit dem iPhone 4S ändert sich einiges: Man ist mit dem Diktieren fast immer schneller und besser bedient als mit fingerfertigen Übungen auf dem Display. Die Frage ist nicht mehr, ob und wie gut die Technik funktioniert, sondern ob man gewillt ist, in aller Öffentlichkeit oder zumindest im Büro mit seinem iPhone zu sprechen. Es geht allein um die soziale Akzeptanz. Wer die Idee für abstrus hält, denke zurück an eine Bürowelt ohne Telefone im 19. Jahrhundert.

Auch am PC wird sich die Spracherkennung ändern. Dragon-Hersteller Nuance ist schon jetzt dabei, sein schweres Flaggschiff leichter bedienbar zu machen, ein „Dragon Express“ für den Mac wurde unlängst in den Vereinigten Staaten vorgestellt. Am Ende benötigt ein sprachbedienter Computer jedoch unabdingbar ein neues Betriebssystem, das sich stärker auf die Inhalte fokussieren und den lästigen Verwaltungsunterbau, der unsere heutigen PCs aus historischen Gründen prägt, weitgehend ausblenden wird. Darin wird in der Rückschau der Erfolg von Siri liegen.

2 Antworten auf „Semantik und Anthropomorphisierung: Worauf der Erfolg von Apples Siri basiert“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.