Wurde ChatGPT beim kreativen Schreiben tatsächlich schlechter?

Manchmal ja – vorübergehend – Anbieter liefern Modell-Updates, die das Schreibverhalten verändern, und OpenAI hat nach Beschwerden mindestens eines davon rückgängig gemacht. Aber die meiste wahrgenommene Verschlechterung ist bei jedem Modell reproduzierbar: Lange Chats verschlechtern sich, wenn der Kontext sich mit den Ausgaben des Modells füllt. Testen Sie denselben Szenenbrief in einem frischen Chat und mit einem zweiten Modell, bevor Sie zu dem Schluss kommen, dass das Modell kaputt ist.

Warum verschlechtert sich die KI-Schreibqualität in langen Chats?

Weil der Kontext des Modells zunehmend aus seinen eigenen vorherigen Antworten besteht, beginnt es, sich selbst zu imitieren, statt Ihren Anweisungen zu folgen. Drift verschärft sich mit jedem Austausch. Ein frischer Chat pro Szene, bei dem nur eine Stilnotiz, ein Szenenbrief und die letzten Absätze übernommen werden, setzt die Spirale zurück.

Kann Bearbeitung KI-ähnliche Geschichten korrigieren?

Bearbeitung korrigiert KI-ähnliche Sätze. Die StoryScope-Studie mit 61.608 Geschichten zeigte, dass nach einer Überarbeitung im professionellen Rahmen Klassifikatoren KI-Geschichten auch anhand der Struktur allein identifizierten — erklärte Moral, keine Subplots, chronologische Enthüllungen überstehen jede Zeilenbearbeitung. Die Struktur muss in der Outline-Phase von einem Menschen festgelegt werden.

Welches KI-Modell eignet sich am besten für das Schreiben von Belletristik?

Sie unterscheiden sich stärker, als die meisten vermuten — Die Studie identifizierte die Erzählweisen jedes Modells in 68% der Fälle allein anhand Erzählgewohnheiten (Claude: zurückhaltende, leise Enden; GPT: gerüchtegetriebene Ensemble-Handlungen; Gemini: düstere Schauplätze und ordentliche Enden). Es gibt kein universell bestes Modell; es gibt eine beste Passung für dein Genre, weshalb es der schnellste Weg zur Diagnose ist, eine Szene kurz über zwei oder drei Modelle laufen zu lassen.

Wird das ChatGPT-Schreiben schlechter? Was Reddit-Autoren dagegen tun

Die Beschwerde taucht alle paar Wochen auf r/WritingWithAI auf, und diese Woche war sie unverblümt: „Kreatives Schreiben ist in letzter Zeit so viel schlechter geworden, dass ich am liebsten schreien würde.“ Ein Schriftsteller, der den Großteil seiner Geschichte selbst entwirft und ChatGPT für knifflige Szenen und Dialoge verwendet, sah, wie die Ausgabe sich von wirklich guter Prosa zu einzeiligen Dialogfragmenten, flachen Beschreibungen und dem, was er als „flach, generisch, zu vorsichtig und im Wesentlichen leblos“ bezeichnete Schreibstil, entwickelte. Nichts an seinem Prozess hatte sich geändert. Also, was ist passiert, und was unternimmt man tatsächlich dagegen?

⚡ TL;DR – Zentrale Erkenntnisse

•„ChatGPT hat sich verschlechtert“ besteht üblicherweise aus drei gestapelten Problemen: Lange Chats, die sich verschlechtern, sobald der Kontext mit den eigenen Ausgaben des Modells gefüllt wird; Modelle, die zur statistischen Mitte jeder möglichen Geschichte konvergieren; und stille Modellaktualisierungen, die das Schreibverhalten über Nacht verändern.
•Eine Studie mit 61.608 Geschichten (Universität Maryland + Google DeepMind) ergab, dass die wahre KI sich in der Erzählstruktur zeigt, nicht in der Prosa — ausformulierte Moralvorstellungen, null Nebenhandlungen, chronologische Enthüllungen — und Bearbeitung auf Prosaebene beseitigt sie nicht.
•Die Lösungen, auf die Reddit sich verständigt: Für jede Szene einen frischen Chat, den Stil anhand eingefügter Beispiele zeigen statt ihn mit Adjektiven zu beschreiben, Dialog- und Aktions-Beats in separaten Durchläufen generieren und die Erzählstruktur der Geschichte menschlich halten.
•Bitte mehrere absichtlich divergierende Behandlungen einer Szene an und wähle die seltsamste davon — du führst damit die Varianz wieder ein, die das Modell tendenziell ausgleicht.
•Manchmal liegt es wirklich am Modell, nicht an dir. Teste dasselbe Szenenbriefing mit einem anderen Modell, bevor du alle deine Prompts neu schreibst.

Der Thread, der zu diesem Artikel führte

Der Beitrag erschien in r/WritingWithAI und sammelte schnell Upvotes, weil die Hälfte des Subreddits es erlebt hat. Der Autor ist kein faule*r Ein-Prompt-Generator — er schreibt die meisten Teile selbst und holt ChatGPT für Szenen hinein, die er sich schwer vorstellen kann, oder für Dialoge. Über einen längeren Zeitraum funktionierte diese Partnerschaft. Dann, über ungefähr zwei Wochen, hörte sie auf zu funktionieren.

u/EnthusiasmHealthy601
r/WritingWithAI

Kreatives Schreiben ist in letzter Zeit so viel schlechter geworden, dass ich einfach schreien möchte

„Der Dialog ist einfach seltsam und generisch, alles wirkt flach und es macht mich wahnsinnig… Wenn es passiert, wird der Chat zu lang und wir sind wieder am Anfang… Aber jetzt ist alles flach, generisch, zu vorsichtig und im Wesentlichen leblos.“

Auf Reddit →

Drei Details in diesem Beitrag sind wichtig, weil jeder auf eine andere Ursache hindeutet: Die Qualität sinkt innerhalb langer Chats, der Dialog zerfällt in Fragmente, und das Ganze begann vor ein paar Wochen abrupt. Nehmen wir sie der Reihe nach durch.

Ursache Eins: Lange Chats vergiften sich selbst

Die häufigste und am einfachsten zu behebenende Ursache: Der Kontext eines Chat-Modells füllt sich mit allem in der Unterhaltung — einschließlich seiner eigenen vorherigen Antworten. Je tiefer man in einen langen Chat eindringt, desto mehr wird dieser Kontext zum eigenen mittelmäßigen Output des Modells, und desto stärker ahmt es sich selbst statt dich nach.

Der TE beschreibt das sogar, ohne es zu benennen: Die Dinge verbessern sich kurz nach dem Lenken, dann wird der Chat zu lang und wir sind wieder am Anfang. Das ist nicht das Modell, das schlechter wird. Das Chat-Gespräch wird einfach länger.

Die Lösung ist unspektakulär: Starte pro Szene einen neuen Chat und füge nur das erneut ein, was die Szene braucht — eine kurze Stilnotiz, die Szenenübersicht und die letzten Absätze für Kontinuität. Niemals die ganze Unterhaltung. Das ist dasselbe Prinzip dahinter, eine Story-Bibel außerhalb des Chats zu führen, das wir ausführlich in unserem Leitfaden, wie man ein KI-generiertes Buch konsistent hält behandelt haben: Das Modell sollte eine komprimierte, kuratierte Darstellung sehen, nicht seine eigene Rohhistorie.

Ursache Zwei: Modelle schreiben aus der Mitte

Die zweite Ursache geht tiefer als jede Chat-Hygiene, und eine neue Studie hat Zahlen dazu geliefert. Ein Paper namens StoryScope, von der University of Maryland und Google DeepMind, wurde in derselben Woche im Subreddit gepostet und wurde zu einem der meistgelesenen Threads dort. (Wir haben die vollständige Studie in einem separaten Deep-Dive aufgeschlüsselt; hier ist, was für das Qualitätsproblem wichtig ist.)

u/kurthertz
r/WritingWithAI

Eine neue Studie analysierte 61.608 KI-geschriebene Geschichten. Die Hinweise liegen nicht in der Prosa, sondern in der Geschichte selbst, und Bearbeiten entfernt sie nicht.

„Sie haben absichtlich alle Stil-Signale weggeworfen… Sie haben sich nur Erzählentscheidungen angesehen: Plotstruktur, Handlungsfähigkeit der Figuren, wie Informationen offengelegt werden, wie Enden sich auflösen. Aus der Struktur der Geschichte allein konnte ein Klassifikator Mensch von KI in 93,2% der Fälle unterscheiden.“

Auf Reddit ansehen →

Die Studie umfasste fünf Modelle (einschließlich Claude, GPT und Gemini) und menschliche Autoren schrieben Geschichten aus 10.272 identischen Prämissen — insgesamt 61.608 Geschichten. Die Ergebnisse erklären das Gefühl von „flach und generisch“ besser als jede Anekdote:

Die Hinweise sind strukturell, und Bearbeiten entfernt sie nicht

KI-Geschichten erklärten ihre Moral in 77% der Fälle direkt, führten fast keine Subplots aus, und enthüllten Informationen in strikter chronologischer Reihenfolge. Wenn die Forscher KI-Geschichten mit einem professionellen Bearbeitungsrahmen neu schrieben, verbesserte sich die Prosa – und die strukturellen Hinweise blieben. Ein Klassifikator konnte die KI-Geschichte dennoch erkennen, weil das Editieren Sätze poliert, nicht Erzählentscheidungen.

Die menschliche Geschichte ist der Ausreißer

Gegeben sechs Versionen derselben Prämisse war die von Menschen verfasste Geschichte in 57,8% der Fälle der statistische Ausreißer (Zufall wäre 16,7%). Modelle ziehen Stichproben aus der Mitte der Verteilung plausibler Geschichten; Menschen wandern davon ab. Das ist der Teil der Beschwerde, der besagt, dass es keine überraschenden Wendungen mehr gibt – quantifiziert.

Jedes Modell hat einen Fingerabdruck

Der Klassifikator konnte erkennen, welches Modell eine Geschichte in 68 % der Fälle geschrieben hat. Claude schrieb zurückhaltende, ruhige Enden und liebte Epiloge; GPT stützte sich in 64 % seiner Geschichten auf Klatsch und Gerüchte als Handlungsmotor; Gemini kennzeichnete 88 % seiner Schauplätze als düster und bedrückend. Ein Kommentator sagte, er habe negative Vorgaben wie „das Thema des Buches nicht nennen“ hartcodieren müssen, um den Standardeinstellungen entgegenzuwirken — was fast zu gut zu der 77 %-Angabe bezüglich der angegebenen Moralprinzipien passt.

Ursache Drei: Manchmal ändert sich das Modell tatsächlich

Die abrupte Angabe „vor zwei Wochen“ im Originalbeitrag ist das Eine, was die Chat-Hygiene nicht erklären kann. Modellanbieter liefern stille Updates, und das Schreibverhalten ändert sich damit — OpenAI hat schon einmal ein ChatGPT-Update nach Nutzerbeschwerden zurückgezogen. Man kann ein Modell-Update nicht durch Prompting beheben. Man kann es nur erkennen: Führen Sie dieselbe Szene mit denselben Stilbeispielen mit einem anderen Modell aus. Wenn die Ausgabe dort deutlich besser ist, lag es nie an Ihrem Prompt.

Kommentatoren im Thread waren dort bereits angekommen — einer empfahl, denselben Stoff modellübergreifend zu testen, und dabei zu beachten, dass verschiedene Modelle unterschiedliche Genre-Stärken haben, von Claude für wärmere Charakter-Arbeit bis zur Geminis Prosa, die man liebt oder hasst. Die Fingerabdruckdaten der Studie sagen dasselbe aus der anderen Richtung: Diese Modelle schreiben tatsächlich unterschiedlich, daher ist der Wechsel ein echter Hebel, kein Aberglaube.

Der Workflow, der den Großteil davon behebt

Hier ist die Antwort, die ich im Thread gepostet habe, erweitert. (Offenlegung: Ich bin Stefan, Gründer von Automateed, einem KI-Buch-Ersteller mit einem Publishing-Marktplatz – genau dieses Fehlerbild zu bekämpfen ist ein großer Teil dessen, was wir bauen.)

u/Empty-Recognition-33
Stefan | Gründer von Automateed

„Lange Unterhaltungen sind der Killer. Die Qualität sinkt, je tiefer man in ein Gespräch eindringt, weil der Kontext sich mit dem eigenen mittelmäßigen Output des Modells füllt und es beginnt, sich selbst zu imitieren… Hör auf, den Stil zu beschreiben, den du willst, und zeige ihn stattdessen. Füge zwei oder drei Absätze Prosa in dem Register ein, das du suchst… Modelle folgen Beispielen viel besser als Adjektive wie ‚lebendig‘ oder ‚kreativ‘.“

Auf Reddit ansehen →