Technologie

Das Jahrzehnt der Stimme bricht an: Mithilfe von Technologie ersetzt Sprechen zunehmend das Schreiben

© CH Media

Statt zu tippen, sprechen wir wieder. Mit Menschen – und sogar mit Maschinen. Im Zeitalter der Moderne findet Kommunikation zu ihren Ursprüngen zurück.

«Welches ist das höchste Gebäude der Welt?», fragt der Zehnjährige, der am Schreibtisch in seinem Zimmer einen Vortrag vorbereitet. Während der Vater überlegt, wie denn dieser Turm in Dubai schon wieder heisst, meldet sich bereits eine monotone Stimme aus dem Kinderzimmer: «Das höchste Gebäude ist der Burj Khalifa mit 828 Metern.» Die Frage hat nicht dem Vater gegolten, sondern Google.

Für den Zehnjährigen ist es normal, dass er mit dem Smartphone oder dem Computer über Sprache kommuniziert. Das geht schneller als tippen. Fast schon alternativlos ist das für seinen jüngeren Bruder, der gerade die ersten Buchstaben lernt. Wenn er einmal auf dem Tablet Kindervideos anschauen darf, klingt das so: «Hey Google, ‹Yakari› auf Youtube anschauen.» Wenige Sekunden später reitet ein Indianer auf einem Schimmel über das Display.

Sprachassistent Siri hört bei Gesprächen mit – und beantwortet Fragen.

Sprachassistent Siri hört bei Gesprächen mit – und beantwortet Fragen.

Die beiden Kinder sind keine Ausnahme. Letztes Jahr hat die Zürcher Hochschule für Angewandte Wissenschaften Eltern zum Umgang ihrer Kinder mit digitalen Medien befragt. Interaktion über Sprache ist verbreitet. In der Westschweiz noch mehr als in der Deutschschweiz.

, sagt der Medienpsychologe Gregor Waller, der die Studie geleitet hat.

Noch verbreiteter ist das Sprechen mit Computern in den USA. Dort gehören die smarten Lautsprecher von Google, Amazon oder Apple mittlerweile fast schon zur Wohnzimmerausstattung wie hier der Fernseher. Eine CNN-Journalistin schreibt in einem Artikel, dass das vierte Wort, welches ihre Tochter gelernt hat, nach «Mama», «Papa» und «Katze», «Alexa» war, der Name des Sprachassistenten von Amazon.

Am Verhalten der Kinder wird ein technologischer Wandel oft am augenfälligsten. Gestern rieben wir uns die Augen, als Kinder mit dem Finger auf Bilderbüchern herumwischten, in der Hoffnung, es würde dasselbe passieren wie auf dem Touchscreen. Heute sind wir verdutzt, wenn sie mit Geräten sprechen. Dabei ahmen sie ihre erwachsenen Vorbilder nach – und lernen, dass Computer auf Fragen antworten.

Es gibt sogar ein Erotikportal, das gänzlich auf die Ohren setzt

«Das gesprochene Wort wird im Umgang mit Maschinen in Zukunft wichtiger, da vermehrt die Möglichkeit besteht, über gesprochene Sprache mit ihnen zu kommunizieren», sagt Volker Dellwo, Professor am Institut für Computerlinguistik der Universität Zürich. Besonders praktisch ist das beim Autofahren, da man hier keine Hand frei hat, um auf einem Bildschirm herumzutippen.

Wer aber den Vorteil und die Convenience – wie es im Tech-Jargon heisst – der Sprachsteuerung erkannt hat, der nutzt sie öfters auch unterwegs, beim Kochen oder wenn er zu faul ist, um auf einer glatten Oberfläche kleine Buchstaben mit dem Finger zu treffen. Und je besser dieses Voice-Interface – um erneut im Tech-Jargon zu sprechen – wird, desto mehr nutzen die Menschen es.

Einfacher als tippen: In den USA soll nächstes Jahr bereits jede zweite Suchanfrage im Internet über die Sprache erfolgen.

Einfacher als tippen: In den USA soll nächstes Jahr bereits jede zweite Suchanfrage im Internet über die Sprache erfolgen.

In der Schweiz ist das derzeit erst jeder dritte Smartphonenutzer, in einem Jahr, so eine Studie, sollen es aber bereits doppelt so viele sein. In den USA soll gemäss dem Marktforschungsinstitut Comscore nächstes Jahr bereits jede zweite Suchanfrage über die Stimme erfolgen.

Vieles deutet darauf hin, dass die Sprachsteuerung ähnlich wichtig werden wird wie der Touchscreen. Und mit ihr die gesprochene Sprache, deren Dominanz man auch anderorts feststellen kann. Etwa bei den Sprachnachrichten auf Whatsapp. Das Versenden von gesprochenen Monologen wird immer beliebter. Gemäss einer deutschen Studie greifen mittlerweile über zwei Drittel der Nutzer mindestens gelegentlich auf diese Funktion zurück.

Sprechen statt schreiben: Einige tun das exzessiv, weil schneller und persönlicher. Und doch unkomplizierter als Telefonieren, weil niemand am anderen Ende der Leitung ist, der einem widerspricht. Die «Sunday Times» meinte:

Auch in der Unterhaltung und Information wird das gesprochene Wort wichtiger. Podcasts boomen. Gegenüber herkömmlichen Radiosendungen haben sie den Vorteil, dass sie jederzeit gehört werden können und dass sie so gut wie jeder herstellen und übers Netz verbreiten kann. Zeitungen nutzen das Format oder lassen ihre Artikel von einer Computerstimme oder professionellen Sprechern vorlesen.

Der Absatz von Hörbüchern nimmt zu, Amazon hat einen Onlineservice dafür. Und es gibt sogar ein eigenes Portal für Erotikgeschichten: Das Start-up Femtasy will Frauen über die Ohren zum Höhepunkt bringen.

Man kann das durchaus als einen Gegentrend zur Bilderflut verstehen, die ununterbrochen auf uns einprasselt, als die Sehnsucht nach ein bisschen weniger aufdringlichen Reizen, als Reduktion auf das Wesentliche, auf die reinen Worte.

Das ausgehende Jahrzehnt war von visueller Kommunikation geprägt. Dafür sorgen die Handykameras. Sie machten es erst möglich, jederzeit ein Foto aufzunehmen und mit der ganzen Welt zu teilen.

Es war das Jahrzehnt, in dem Instagram gegründet und gross wurde. Es war das Jahrzehnt, in dem die Bildschirme der Smartphones Jahr für Jahr gewachsen sind. Das bevorstehende Jahrzehnt könnte in ähnlichem Ausmass von der gesprochenen Sprache geprägt werden.

Es wird nicht so sein, dass die Bildschirme gänzlich verschwinden werden. Aber sie werden vermehrt in der Tasche bleiben. Oft reichen die Informationen, die man übers Ohr aufnimmt. Die einzig sichtbare Technologie bleibt ein kleiner kabelloser Ohrhörer, wie ihn Apple 2016 eingeführt und wie ihn andere Hersteller kopiert haben.

Bereits wird darüber diskutiert, ob es wirklich unanständig ist, wenn man die Dinger einfach in den Ohren eingestöpselt lässt, während man sich mit anderen Menschen unterhält. Schliesslich ist es so praktischer, und den unsichtbaren Draht zum Web kappt man nur ungern.

Eine wunderbare Zukunftsvision eines solchen auditiven Zeitalters liefert der Film «Her» von Spike Jonze aus dem Jahr 2013. Computer sind hier omnipräsent, aber unsichtbar. Interagiert wird fast ausschliesslich über die Sprache, dabei verliebt sich der Hauptprotagonist Theodore in die Stimme einer künstlichen Intelligenz, die ihn durch das Leben geleitet und begleitet.

Nach Mobile First kommt nun Voice First

Dieses Szenario wird durch die Weiterentwicklung der Spracherkennung immer realistischer. Als Apple 2011 den Sprachassistenten Siri einführte, war eine Verständigung zwischen Mensch und Maschine noch Glückssache. Heute geht das ganz flott.

Klar, lustige Missverständnisse gibt’s noch immer. Aber sie werden seltener. Und auch bei der Kommunikation zwischen Menschen sind sie alles andere als ausgeschlossen.

Nach Online First und Mobile First spricht man heute von Voice First – die Präsenz der Stimme in den Ohren der Menschen erhält erste Priorität.

Ein Schweizer Kommunikationsunternehmen hat letztes Jahr die erste Voice-Studie der Schweiz herausgegeben. Die Botschaft: Marken müssen sich für die neue Schnittstelle zwischen Mensch und Maschine optimieren. Das Visuelle besitze zwar viel Kraft, die menschliche Stimme weckt unsere Emotionen aber noch viel unmittelbarer.

Voice First lässt sich aber auch anders verstehen: Jahrtausende bevor der Mensch die Schrift erfunden hat, beherrschte er die Sprache. Jahre bevor ein Kind schreiben kann, lernt es zu sprechen. Und trotz aller Kommunikationsmittel sprechen wir noch heute meistens mit unseren Mitmenschen. Vor allem, wenn es etwas wirklich Wichtiges zu sagen gibt, geht das nur in einem Gespräch von Angesicht zu Angesicht.

, sagt der Sprachwissenschafter Dellwo. Sprechen ist die ursprünglichere Art der menschlichen Kommunikation.

Und wenn diese nun die Maschinen erlernen, bedeutet dies, dass wir uns endlich mit ihnen so unterhalten können, wie wir es mit Menschen tun. «Dadurch werden Maschinen immer menschennäher, und die Distanz zwischen Mensch und Maschine wird immer kleiner. Das kann sich sehr unterschiedlich positiv wie negativ auswirken», sagt Dellwo.

Die Maus und die Tastatur waren die erste Schnittstelle, über die sich ein Computer auf einfache Art bedienen liess, dann kam der Touchscreen, nun tritt die Sprachsteuerung hinzu. Das macht Voice First zur letzten Schnittstelle zwischen Menschen und Maschinen. Die nächste Stufe wäre die direkte Verbindung ins Hirn, wobei wir dann selber zu Mensch-Maschinen würden.

Muss man überhaupt noch lesen und schreiben können?

Wenn nun aber alle Informationen über die Sprache abrufbar sind, wenn jeder Mensch synchron oder zeitversetzt über Sprache erreicht werden kann, wenn sich jede Erzählung von der Stimme eines Sprechers vortragen lässt, so stellt sich die Frage: Warum überhaupt noch lesen und schreiben lernen? Für Kinder, die sich im Web orientieren können, lange bevor sie das Alphabet lernen, dürfe der Sinn der schriftlichen Kommunikation in Zukunft schwerer zu vermitteln sein.

Trotzdem werden sich natürlich die Schriftgelehrten durchsetzen. Denn auch wenn einmal das gesprochene Wort alles möglich machen sollte, wenn auch keine Buchstaben mehr gebraucht würden, um sich im Alltag durchzuschlagen, wenn Laute allein reichen würden, um sich im Job zu behaupten, so würde das Schreiben und Lesen dennoch nicht verschwinden. Sei es nur schon deshalb, um einmal von all dem Stimmengewirr abzuschalten und in Ruhe ein Buch zu lesen.

Verwandte Themen:

Meistgesehen

Artboard 1