Warum Leserinnen und Leser erkennen, dass Ihr Buch KI ist: Studie mit 61.608 Geschichten

Entferne alle stilistischen Signale aus einer Geschichte — Wortwahl, Satzrhythmus, alles — und ein Klassifikator kann dennoch zu 93,2 % der Fälle erkennen, ob ein Mensch oder eine KI sie geschrieben hat. Das ist das zentrale Ergebnis von StoryScope, einer neuen Studie der University of Maryland und Google DeepMind, die 61.608 Geschichten analysierte, und es landete diese Woche wie eine kleine Bombe in r/WritingWithAI: 159 Upvotes, Dutzende lange Kommentare und eine unbequeme Schlussfolgerung für jeden, der KI-unterstützte Fiktion veröffentlicht. Die Hinweise liegen nicht in deiner Prosa. Sie liegen in deiner Geschichte. Und das Bearbeiten entfernt sie nicht.

⚡ TL;DR – Zentrale Erkenntnisse

•StoryScope verglich 10.272 Prämissen, die jeweils von einem menschlichen Autor verfasst wurden, mit fünf führenden Modellen (insgesamt 61.608 Geschichten) und klassifizierte sie ausschließlich anhand narrativer Entscheidungen — Handlungsaufbau, Protagonistenführung, Informationsenthüllungen, Enden — und erreichte 93,2 % Genauigkeit bei null Stil-Signalen.
•Die großen Indikatoren: Die KI nennt ihre Themen direkt (77 % gegenüber 52 % bei Menschen), vermeidet Nebenhandlungen (79 % der KI-Geschichten haben keine, gegenüber 57 %), stellt Emotionen zwanghaft als Körperempfindungen dar (81 % vs. 38 %), und löst alles in eine ordentliche chronologische Abfolge auf.
•Professionelles Prosa-Editing half kaum: Die Erkennung sank von 95,5 % auf 93,9 %. Man kommt durch reines Zeilen-Editing nicht von strukturellen Entscheidungen weg.
•Bei sechs Versionen derselben Prämisse war die menschliche Geschichte in 57,8 % der Fälle der statistische Ausreißer – das menschliche Signal ist Varianz, nicht Verfeinerung.
•Die praktikable Lösung liegt im Vorfeld: Beherrsche die Architektur (Nebenhandlungen, ungeklärte Fäden, nicht-chronologische Enthüllungen, unausgesprochene Themen), bevor du mit dem Schreiben beginnst, und lasse die KI innerhalb dieser Entscheidungen arbeiten. Strukturelle Änderungen sind in der Gliederungsphase günstig und danach nahezu unmöglich.

Die Studie, über die Reddit spricht

Der Thread, der die Studie in die KI-Schreibgemeinschaft trug, wurde in r/WritingWithAI gepostet und fasst das StoryScope-Paper zusammen (die Autoren veröffentlichten außerdem den Code und 51.000 der Geschichten).

u/kurthertz
r/WritingWithAI

Eine neue Studie analysierte 61.608 KI-generierte Geschichten. Die Hinweise liegen nicht in der Prosa, sondern in der Geschichte selbst, und das Bearbeiten entfernt sie nicht.

„Der Dreh: Sie haben absichtlich alle Stil-Signale verworfen! Keine Wortwahl, kein Satzrhythmus. Sie betrachteten nur Erzählentscheidungen… Aus der Erzählstruktur allein konnte ein Klassifikator Mensch von KI zu 93,2% unterscheiden.“

Auf Reddit ansehen →

Die Ausgangslage ist ungewöhnlich streng für diese Debatte. Jede der 10.272 Prämissen wurde von einem menschlichen Autor und von fünf Modellen — Claude Sonnet 4.6, GPT-5.4, Gemini 3 Flash, DeepSeek V3.2 und Kimi K2.5 — in eine Geschichte umgesetzt (etwa 5.000 Wörter), sodass der Vergleich bei identischen kreativen Vorgaben wirklich vergleichbar ist. Dann taten die Forscher genau das, was niemand, der über Em-Dashes streitet, jemals tut: Sie warfen die Prosa weg und betrachteten nur die Entscheidungen, die die Geschichte traf.

Ich bin der Gründer von Automateed (einem KI-Buch-Ersteller), lies also meine Einschätzung dazu mit diesem Hintergrund im Hinterkopf. Ich habe im Thread geantwortet, weil diese Studie harte Zahlen zu etwas liefert, das wir ständig sehen: Der Unterschied zwischen Büchern, die Leser zu Ende lesen, und Büchern, die Leser weglegen, liegt fast nie in den Sätzen.

Die Hinweise, nach dem Grad ihrer Offenbarung sortiert

1. KI erklärt ihre Themen

Der Erzähler nennt die Moral direkt in 77% der KI-Geschichten, verglichen mit 52% der menschlichen Geschichten, und Dialoge geraten fast doppelt so oft in philosophische Debatten (59% vs. 34%). Das Modell vertraut dem Leser nicht, irgendetwas zu erschließen — zu jedem Thema gibt es eine Rede. Menschliche Schriftsteller belassen Bedeutungen auf dem Tisch und lassen den Leser sie aufgreifen.

2. KI kann keine Nebenhandlungen

79% der KI-Geschichten haben keine Nebengeschichten, gegen 57% bei Menschen. Menschliche Geschichten beginnen bei der Beerdigung und spiralen rückwärts, springen in der Zeit herum und lassen Abschnitte absichtlich lose. Die KI erzählt die Geschichte vom ersten Hinweis bis zur großen Enthüllung, in Reihenfolge, eine Spur, keine Ausgänge. Wenn dein Buch keine Nebengeschichte hat und strikt chronologisch auflöst, wirkt es auf Skelett-Ebene maschinell hergestellt — egal wie gut die Sätze sind. (Die Struktur ist in der Planungsphase reparierbar; unser Leitfaden zum Strukturieren einer Geschichte deckt die Rahmenwerke ab.)

3. „Zeigen statt Erzählen“ ist zu einem Zwang geworden

Dieses Thema hat dem Subreddit am stärksten zugesetzt. KI wandelt Emotionen in Körperempfindungen um: Enge in der Brust, kalter Schweiß, weiße Knöchel, der Atem, von dem sie nicht wussten, dass sie ihn festhielten. Menschen sind viel eher bereit, einfach zu sagen, dass sich jemand ängstigte (29% vs 8%). Die Workshop-Regel wurde so stark verinnerlicht, dass sie zu einer bloßen Erzählregel geworden ist — es lohnt sich, sich das nächste Mal daran zu erinnern, wenn ein Tool vorschlägt, jedes Gefühl körperlich darzustellen. Unser Beitrag über Zeigen statt Erzählen behandelt, wann Erzählen tatsächlich die richtige Wahl ist.

4. Menschliche Geschichten sind Ausreißer

Die Statistik, zu der ich immer wieder zurückkehre: Gehen wir von sechs Versionen derselben Prämisse aus, so war die von Menschen geschriebenen Version in 57,8% der Fälle der statistische Ausreißer (Wahrscheinlichkeit: 16,7%). Der menschliche Unterschied besteht nicht in der Politur. Es ist die Bereitschaft, vom erwarteten Pfad abzuweichen — dieselbe Schlussfolgerung, die aus einem anderen Thread derselben Woche darüber entstand, warum KI-Geschichten niemanden jemals überraschen.

5. Jedes Modell hat einen Fingerabdruck

Der Klassifizierer konnte 68% der Zeit erkennen, welches Modell eine Geschichte verfasste. Claude ist zurückhaltend, verehrt literarische Tradition, liebt Epiloge und ruhige Enden. GPT treibt Plots mit Klatsch und Gerüchten (64% seiner Geschichten) voran und rahmt Ereignisse Jahre später mit Ensemble-Besetzungen. Gemini schreibt die saubersten Enden und hat 88% seiner Handlungsorte als "düster und bedrückend" markiert. DeepSeek legt den Kontext, den die anderen zurückhalten, vor. Kimi hat keinerlei ausgeprägte Eigenheiten — was das zu einem eigenen Indiz macht, dem generischen Zentrum der KI-Verteilung. Wenn du ausschließlich mit einem Modell entwirfst und dessen Standardeinstellungen akzeptierst, veröffentlichst du dessen Hausstil unter deinem Namen.

Warum Überarbeitung dich nicht rettet

Der Teil der Studie, der viele Debatten beenden sollte: Die Forscher nahmen KI-Geschichten und schrieben sie mit einem Bearbeitungsrahmen um, der von professionellen Schriftstellern abgeleitet ist und Klischees, übertriebene Prosa und redundante Exposition entfernt — die vollständige Behandlung, den Text menschlich zu gestalten. Die Erkennung sank von 95,5% auf 93,9%. Ein Punkt und ein halber Prozentpunkt.

Der Grund ist offensichtlich, sobald man ihn sieht: Der Klassifikator liest keine Sätze, er liest Entscheidungen. Ob ein Thema genannt wird, ob eine Nebenhandlung existiert, ob die Zeitleiste bricht — diese Entscheidungen wurden getroffen, bevor auch nur ein Satz geschrieben wurde, und kein Durchlauf auf Satzebene greift sie erneut auf. Jedes Indiz in der Liste ist eine Eigenschaft auf Gliederungsebene: billig zu beheben vor dem Entwurf, fast unmöglich danach. Dies ist auch der Grund, warum der Workflow „Lass es einfach von einem Humanisierer bearbeiten“ Bücher produziert, die sich immer noch falsch anfühlen — derselbe Grund, warum wir strukturelle Probleme als Kernproblem in 7 KI-Schreibfehler, die E-Books generisch wirken lassen markiert haben.

Was Reddit daraus mitgenommen hat

Die Reaktionen des Threads ordneten sich in drei nützliche Lager.

Die Workflow-Fraktion betrachtete die Studie als Bestätigung für eine von Menschen betriebene Architektur. Das häufigste Muster: KI verwenden, um Ideen zu generieren und Grammatik zu korrigieren, niemals zu entscheiden, wie die Geschichte verläuft. Ein Autor beschrieb, Szenen und Kapitel an LLMs zu vergeben, um Entwürfe zu erstellen, doch Handlung und emotionale Höhepunkte fest in menschlicher Hand zu behalten — „Ich bin der Chefschreiber.“ Ein anderer setzt Negativbeschränkungen explizit, weil Claude „liebt es, jeden Abschnitt auf irgendeine Art eine Lektion enden zu lassen“: keine angegebenen Themen, keine selbstbewussten Charaktere, kein Therapiesprech, keine Reden.

Die Vorbehalte-Fraktion setzte sich recht deutlich gegen den Umfang durch. Die Geschichten hatten rund 5.000 Wörter — Kurzgeschichten, die mit einer einzigen Aufforderung geschrieben wurden, keine kuratierten Romane — und das Genre zählt: Liebesroman-Leserinnen legen oft Wert auf lineare emotionale Handlungsstränge, und Nebenhandlungen können dort als Füllmaterial erscheinen. Die Studie misst, was Modelle unbeaufsichtigt tun, nicht, was ein Mensch-KI-Team produziert. Beide Punkte stimmen, und keiner davon rettet den One-Prompt-Workflow.

Die Comedy-Fraktion verbrachte den Nachmittag damit, KI-Charakternamen zu vergleichen. Jeder begeisterte KI-Nutzer im Thread traf auf dieselben Figuren: Kael, Elara, Voss, Alistair, Vesper. Ein Autor trauerte um eine Figur namens Alara, die er/sie seit einem Jahrzehnt entwickelt hatte, nun unbrauchbar, weil sie als Pfusch gelesen wird. Konvergenz ist nicht nur strukturell — sie reicht bis zur Babynamenliste hinunter.

Mein Standpunkt, den ich im Thread gepostet habe

u/Empty-Recognition-33 (Stefan, Gründer von Automateed)
r/WritingWithAI

“Die Statistik, die mir sofort ins Auge springt, ist der Ausreißer. Das Signal zeigt nicht Bösartigkeit, es zeigt Konvergenz… Modelle ziehen Stichproben aus der Mitte der Verteilung plausibler Geschichten. Was darauf hindeutet, dass eine partielle Lösung darin besteht: fordere nicht ‘die Geschichte,’, fordere mehrere absichtlich divergente Behandlungen der Prämisse an und wähle diejenige aus, die dich ein wenig erschreckt… Außerdem ist zu beachten, dass das Bearbeitungsergebnis ausschließlich Prosa-Überarbeitungen getestet hat. Alles, was sie gemessen haben (offengelegte Moral, null Nebenhandlungen, strikt chronologische Enthüllungen), ist eine Entscheidung auf Gliederungsebene, die vor dem Entwurf günstig korrigiert werden kann und danach nahezu unmöglich ist. Das ist ein starkes Argument dafür, dass der Mensch die Architektur besitzt und das Modell darin entwirft, niemals umgekehrt.”

Auf Reddit ansehen →

Die Vorentwurf-Checkliste, die den Klassifizierer übertrifft

Wenn man die Ergebnisse der Studie auf den Kopf stellt, erhält man eine gliederungsbasierte Checkliste, die vor der Generierung eines einzelnen Kapitels angewandt wird. Jedes Element ist eine Gliederungsentscheidung, und genau das ist der Grund, warum sie funktioniert:

Geben Sie dem Buch eine Nebenhandlung. Bestimmen Sie selbst die Nebengeschichte(n) – wem sie folgt, wo sie die Haupthandlung berührt, welche(n) offen bleibt.
Brechen Sie absichtlich die Chronologie. Beginnen Sie nach der Katastrophe. Enthüllen Sie Inhalte in ungeordneter Reihenfolge. Treffen Sie mindestens eine strukturelle Entscheidung, die ein Erstentwurf-Modell niemals treffen würde.
Vorgeschriebene Moral verbannen. Fügen Sie die negative Einschränkung ausdrücklich hinzu und schneiden Sie jeden Absatz, in dem der Erzähler erklärt, was die Geschichte bedeutet.
Begrenze die Körpersensationen. Durchsuchen Sie Ihren Entwurf nach Anspannung in der Brust und angehaltenem Atem. Manchmal fühlt sich der Charakter einfach ängstlich an, und so etwas auszusprechen ist menschlich.
Fäden offen lassen. Die Auflösungsrate ist ein Indikator. Wählen Sie etwas, womit der Leser eine Zeit lang leben muss.
Ausreißer-Behandlung auswählen. Generieren Sie mehrere divergente Fassungen Ihrer Prämisse und wählen Sie die seltsame aus — die vollständige Methode finden Sie in unserem Begleitartikel zu Wie KI-Geschichten unerwartete Wendungen nehmen.

Wo Automateed hineinpasst

Hinweis: Dies ist mein Produkt, daher beachten Sie entsprechende Rabatte.

Automateed erzeugt Bücher aus einer strukturierten, vom Menschen genehmigten Gliederung — Kapitel für Kapitel im Einklang mit dem aktuellen Handlungsstand, niemals eine einzige Eingabe, die zu einem fertigen Manuskript führt. Die StoryScope-Ergebnisse sind ehrlich gesagt das beste Argument für diese Architektur, das ich gesehen habe: Alles, was der Klassifikator feststellt, ist eine Entscheidung, die die Gliederung besitzt. Wenn die Nebenhandlung, die Enthüllungsreihenfolge und das unausgesprochene Thema dir gehören, entwirft das Modell innerhalb dieser menschlichen Struktur — und die meisten Indizien in dieser Studie gelangen schlicht nicht ins Buch. Was das Tool nicht tun kann, ist diese Entscheidungen interessant zu machen. Dieser Teil war immer die Aufgabe des Autors, und diese Studie umfasst 61.608 Datenpunkte, die belegen, dass es immer noch so ist.

FAQ

Können Leser wirklich erkennen, dass ein Buch von KI geschrieben wurde?

Zunehmend ja — aber nicht aus den Gründen, die die meisten Menschen überwachen. Die StoryScope-Studie zeigte, dass Erkennung allein aus der Erzählstruktur funktioniert (93,2 % Genauigkeit), selbst wenn alle Prosa-Signale entfernt werden. Leser mögen die Hinweise zwar nicht benennen, sie empfinden sie jedoch als „platt“ oder „vorhersehbar“.

Macht das Bearbeiten oder Humanisieren von KI-Texten es unauffindbar?

Nicht signifikant, falls die Struktur maschinell festgelegt wurde. Professionelle Prosa-Editierung senkte die Erkennung von 95,5 % auf 93,9 % in der Studie. Zeilenbearbeitung kann keinen Subplot hinzufügen, keine Moral offenlegen oder Enthüllungen neu anordnen.

Was sind die größten strukturellen Indikatoren für KI-Fiktion?

Ausgesprochene Themen (77 % der KI-Erzählungen), keine Nebenhandlungen (79 %), Emotionen, die zwanghaft als Körperempfindungen dargestellt werden (81 %), streng chronologisch offengelegte Enthüllungen und ordentliche Enden. Jedes Modell hinterlässt seinen eigenen Fingerabdruck obendrauf — in etwa 68 % der Fälle erkennbar.

Bedeutet das, dass KI-unterstützte Bücher immer erkennbar sind?

Nein — Die Studie befasste sich mit Generierungen, die auf eine Eingabe (Prompt) beruhen, von ca. 5.000 Wörtern unüberwacht. Wenn ein Mensch die Gliederung, Nebenhandlungen und die Enthüllungsreihenfolge besitzt und die KI innerhalb dieser Entscheidungen entwirft, sind die strukturellen Indikatoren, auf die der Klassifikator baut, weitgehend nicht vorhanden. Die Studie handelt von Arbeitsabläufen, nicht von Werkzeugen.

Soll ich bei der Veröffentlichung KI-Unterstützung offenlegen?

Plattformen fragen zunehmend danach (Amazon KDP verlangt bei der Einreichung die Offenlegung von KI-generiertem Inhalt), und Transparenz kostet weniger als erwischt zu werden. Offenlegen, die Architektur menschlich gestalten und deine Anstrengungen dort investieren, wo Leser sie tatsächlich fühlen: in den Entscheidungen.

Warum Leserinnen und Leser erkennen, dass Ihr Buch KI ist: Studie mit 61.608 Geschichten

⚡ TL;DR – Zentrale Erkenntnisse

Die Studie, über die Reddit spricht

Die Hinweise, nach dem Grad ihrer Offenbarung sortiert

1. KI erklärt ihre Themen

2. KI kann keine Nebenhandlungen

3. „Zeigen statt Erzählen“ ist zu einem Zwang geworden

4. Menschliche Geschichten sind Ausreißer

5. Jedes Modell hat einen Fingerabdruck

Warum Überarbeitung dich nicht rettet

Was Reddit daraus mitgenommen hat

Mein Standpunkt, den ich im Thread gepostet habe

Die Vorentwurf-Checkliste, die den Klassifizierer übertrifft

Wo Automateed hineinpasst

FAQ

Können Leser wirklich erkennen, dass ein Buch von KI geschrieben wurde?

Macht das Bearbeiten oder Humanisieren von KI-Texten es unauffindbar?

Was sind die größten strukturellen Indikatoren für KI-Fiktion?

Bedeutet das, dass KI-unterstützte Bücher immer erkennbar sind?

Soll ich bei der Veröffentlichung KI-Unterstützung offenlegen?

Turn your idea into a publish-ready book

Stefan

Related Posts

Warum Leserinnen und Leser erkennen, dass Ihr Buch KI ist: Studie mit 61.608 Geschichten

MIT distanziert sich von der umstrittenen KI-Produktivitätsstudie.

MIT startet KI-Risiken-Datenbank mit Fokus auf Datenschutz.

Wann lohnt sich ein Blog? Warum Bloggen sich im Jahr 2026 lohnt.

Wie man Buchlektor wird – Wesentliche Fähigkeiten und Karrierewege

Wie man einen Buchtitel wählt: Der perfekte Titel für Ihr Meisterwerk