Stilometrie oder die Entdeckung der DNA eines Textes
Und was wäre, wenn jeder Buchstabe, den wir zu Papier bringen, ein Stück unserer Identität wäre? Diesem Thema widmet sich die Text-Analyse-Software des Walliser Start-up-Unternehmens OrphAnalytics, die nicht nur Plagiate aufzudecken vermag.
Das Wichtigste in Kürze
- Stellen Sie sich vor, Sie könnten genau bestimmen, welche Noten aus Mozarts Requiem vom Star-Komponisten und welche von seinem Konkurrenten Antonio Salieri stammen.
Solchen Fragen geht das Walliser Unternehmen OrphAnalytics nach.
«Der Idiolekt, also der Schreibstil, ist für jede Person spezifisch», erklärt Claude-Alain Roten, der Direktor der Firma, gegenüber Keystone-SDA. Er werde durch die Wahl des Vokabulars, der Grammatik, aber auch der Zeichensetzung definiert. Das Ganze bilde einen persönlichen Rhythmus, der wie eine DNA sei.
«Die Software versteht nicht die Bedeutung der Wörter, sondern erkennt die Zeichen, aus denen die Wörter bestehen», sagt Roten. Damit kann die Software jeden Text in jeder Sprache zerlegen, nachdem sie die Buchstaben des Alphabets «gelernt» hat.
Dank des fotografische Ansatzes entdeckt das System die zugrunde liegende Struktur eines Textes, seine Inszenierung. Es unterscheidet Wiederholungsmuster und übersetzt sie mit Hilfe von Punktwolken auf einem Computerbildschirm.
Wissenschaftlich wird dies als Stilometrie der Zeichenfolge bezeichnet. Stilometrie ist laut Wikipedia eine Disziplin, die den Sprachstil mit Mitteln der Statistik untersucht. Die Software bildet das Resultat maschinellen Lernens ab.
Die Software verhält sich wie eine Blackbox und wird nicht von externen Parametern beeinflusst, wie es ein Mensch bei der Analyse von Text tun würde. «Es ist teuflisch clever», sagt Florian Cafiero vom Centre National de la Recherche Scientifique (CNRS) in Paris.
Der Spezialist für quantitative Linguistik befasst sich ebenfalls mit der Stilometrie. Cafiero hatte 2019 mit der Legende aufgeräumt, Pierre Corneille habe einige Stücke von Molière geschrieben.
In den Vereinigten Staaten kommt die Stilometrie seit vielen Jahren in der Rechtsprechung zum Einsatz. Laut der französischen Presse war OrphAnalytics auch an den Ermittlungen zum Mord an dem kleinen Gregory beteiligt, was Roten weder bestätigen noch dementieren will.
Damit diese Stilisierung funktioniert, müssen mehrere Elemente vorhanden sein. Einerseits muss es genügend Zeichen geben, die analysiert werden können. «Wenn ein anonymer Brief nicht lang genug ist, kann man keine schlüssigen Indizien finden», so Roten.
«Um ein Schriftstück jemandem zuordnen zu können, muss man es auch mit anderen Dokumenten vergleichen können. Und nicht jeder teilt seine Schriftstücke öffentlich», sagt Cafiero. Auch die Zahl der potenziellen Urheber - oder Verdächtigen - spiele eine Rolle.
Seit seiner Gründung im Jahr 2014 hat OrphAnalytics bereits an zahlreichen Projekten gearbeitet. Kürzlich rückte das Unternehmen mit sechs Teilzeitmitarbeitern ins Zentrum des Interesses, nachdem es festgestellt hatte, dass die QAnon-Bewegung auf Botschaften von zwei Autoren und nicht nur von einem basiert.