Wer hats geschrieben? Der Computer weiss auch das. Beim vielleicht berühmtesten Fall kann aber auch die schlaue Maschine nicht helfen, denn es fehlt uns das Vergleichs- oder Datenmaterial. Shakespeare war entweder Shakespeare oder dann ein anderer, der sich Shakespeare nannte.

Vom richtigen, dem historisch bezeugten Schauspieler William Shakespeare haben wir nur ein paar krakelige Unterschriften. Der gute Mann schrieb nicht einmal seinen eigenen Namen immer gleich. Dass «Shakespeare» aber der Verfasser der berühmten Stücke ist, wird kaum angezweifelt, das Werk scheint aus einer Hand zu kommen.

2015 haben James Pennebaker und Ryan Boyd sogar mit einer Computer-Analyse nachgewiesen, dass «Double Falsehood», ein erst 100 Jahre nach Shakespeares Tod aufgetauchter Text, wirklich vom Verfasser von «Hamlet» und «Othello» stammt. Wer sich aber allenfalls hinter ihm verbirgt, wissen wir immer noch nicht.

Schwieriger wird es, wenn Autoren absichtlich versuchen, die Spuren ihrer Verfasserschaft zu verwischen. Auch hier gibt es ein prominentes Beispiel: Satoshi Nakamoto, der geheimnisvolle Erfinder des Bitcoin. Von ihm haben wir ein Paper aus dem Jahr 2008, in dem er Bitcoin propagiert. Nun ist das ein wissenschaftliches Dokument, die Schreibe nüchtern und sachlich. Trotzdem war die Neugier so gross, dass man die Computer dahinter setzte. Sie notierten die Häufigkeit von so unschuldigen Wörtern wie «still» («immer noch») und «only» («nur» oder «erst»).

Dazu kümmerten sie sich darum, wie oft der Verfasser vor «and» und «but» ein Komma gesetzt hat – die Regeln scheinen da im Englischen nicht so streng zu sein. Ergebnis: Das wies auf das Kryptowährungs-Genie Nick Szabo hin. Michael Erard, der die Geschichte im «New Scientist» vom letzten November aufgegriffen hat, schreibt, dass die NSA (die National Security Agency, einer der US-Geheimdienste) ähnliche Methoden verwendet habe, allerdings wisse man nicht, ob sie auch auf Nick Szabo gekommen seien.

Stil-Verschleiern auch mit Stil

Stilanalyse ist ja an sich nichts Neues. Jeder Literaturwissenschafter macht das. Was neu ist an diesem Fall, ist die Frage: Wie finden wir einen Autor, der nicht will, dass man seinen Stil erkennt? Oder weniger geheimnisvoll: Wie geben wir uns in unserem Schreibstil zu erkennen, ohne dass wir das wollen? Welche Details verraten uns? Oder bereits eine Ecke weiter: Wie können wir diese Spuren verwischen, dass auch die Computer uns nicht mehr auf die Schliche kommen? Die Antwort überrascht nicht. Es sind die kleinen Dinge, die wir nicht gross bewusst kontrollieren, die uns verraten. Sogenannte «Funktionswörter», welche der eine häufiger, andere gar nie einfliessen lassen. Oder Eigenheiten in der Satzstellung, die an sich nicht auffallen, aber eine Lieblingssatzstruktur verraten.

Wie gehen die Linguisten damit um? Lernen wir nicht alle die gleiche Sprache mit der gleichen Grammatik und entwickeln erst später unseren eigenen Stil? Vielleicht stimmt das ja gar nicht. Sondern wir haben schon unsere sprachlichen Eigenheiten, bevor wir den ersten Satz zu Papier bringen?

Einige Linguisten sind überzeugt, dass daran etwas sein muss. So werden Polizisten darauf trainiert, den Stil von Pädophilen zu adaptieren. Um im Netz nach Opfern suchende Pädophile zu finden oder um glaubwürdig ein Opfer spielen zu können, um einen im Netz lauernden Pädophilen zu entlarven.

Unter der Vorgabe des Selbstverschleierns wird die Software ungefähr so «gebaut»: Zuerst abstrahiert man aus einem Sample von Texten stilistische und sprachliche Merkmale des Autors. In einem zweiten Schritt lässt man dann die Maschine vorschlagen, welche Details man ändern könnte, um den Stil zu verschleiern. Auch Rechtschreibfehler bitte sorgfältig einbauen. Der Computer merkt, wenn sich jemand besonders raffiniert als «dumm» hinstellen will. Programme sollen schon aus 8000 Wörtern eine Erkennungstreffsicherheit von 80 bis 85 Prozent erreichen.

Irritierend ist, wie Erard schreibt, dass die Computer auch identifizieren können, welcher Programmierer welchen Code geschrieben hat. Irgendwann lassen sie sich dann wahrscheinlich nur noch von ihren Lieblingsprogrammierern programmieren.