Eine Gefahr für die Zukunft der künstlichen Intelligenz
Ein neuer Teufelskreis entsteht: Der Anteil von Inhalten, die von künstlichen Intelligenzen erzeugt wurden, nimmt stetig zu und bildet das Trainingsmaterial für die nächste Generation von KI-Modellen. Ein aktuelles Experiment zeigt, dass dieser „Zirkelschluss“ schon nach wenigen Generationen zum Zusammenbruch von Sprachmodellen führen kann. Die Qualität der Ergebnisse nimmt ab, bis die KI-Systeme letztendlich nur noch unbrauchbare Informationen produzieren, wie Forscher in der Fachzeitschrift „Nature“ berichten. Doch wie kann man dies verhindern?
Ein sich selbst verstärkender KI-Kreislauf
Künstliche Intelligenzen, insbesondere große Sprachmodelle oder Bildgeneratoren, lernen durch die Analyse von großen Datenmengen. Bislang stammen diese Daten primär von Menschen, was den KI-Systemen ermöglicht, sinnvolle Inhalte zu generieren. Mit dem Aufschwung der künstlichen Intelligenz steigt jedoch der Anteil der KI-generierten Inhalte im Internet, was bedeutet, dass zukünftige KI-Modelle zunehmend mit den Daten ihrer Vorgänger trainiert werden.
Ilia Shumailov von der University of Oxford und seine Kollegen haben untersucht, welche Auswirkungen dieser Kreislauf auf zukünftige KI-Generationen haben könnte. Im Experiment fütterten sie das Sprachmodell OPT-125m von Meta zunächst mit Wikipedia-Texten. Die Folgegenerationen dieses KI-Systems erhielten dann für ihr Training eine Mischung aus von der KI generierten Daten und einem geringen Anteil an menschlich erzeugten Originaldaten.
Degradierung und Kollaps der KI-Modelle
Das Ergebnis war alarmierend: Bereits nach fünf KI-Generationen verschlechterten sich die Antworten merklich. Die Forscher beobachteten einen Kaskadeneffekt, bei dem sich Ungenauigkeiten kumulierten und die Fehler insgesamt zunahmen. Die KI begann, zunehmend Wörter und Sätze zu wiederholen. Wenn man die KI aufforderte, Wiederholungen zu vermeiden, verschlechterten sich die Ergebnisse noch weiter.
Nach neun Generationen lieferte das Sprachmodell nur noch unsinnige Sprachfetzen und Zeichenfolgen – es war kollabiert. Das unkontrollierte Lernen auf Basis von KI-generierten Daten führt zu einem degenerativen Prozess, bei dem die Modelle nach und nach die Verteilung der zugrundeliegenden Originaldaten vergessen, die essentiell für das Lernen sind.
Auswirkungen und mögliche Lösungen
Die möglichen Konsequenzen eines solchen KI-Kollapses erklärt die KI-Forscherin Emily Wenger von der Duke University anhand eines Beispiels: Ein Bildgenerator, der darauf trainiert wird, realistische Abbildungen von Hunden zu erstellen, nutzt als Datenbasis Fotos aus dem Internet. Da beliebte Hunderassen wie Golden Retriever häufiger vorkommen, zeigt der Bildgenerator bevorzugt diese Rassen. Mit der Zeit vergisst das KI-Modell die seltenen Rassen und generiert nur noch Bilder von Golden Retrievern, bis es schließlich keine Hunde mehr korrekt darstellen kann.
Maßnahmen zur Verhinderung des KI-Kollapses
Das Experiment zeigte, dass der KI-Kollaps nahezu unvermeidbar ist, sofern die künstliche Intelligenz nicht mit einem Mindestmaß an menschlichen Daten trainiert wird. Shumailov und seine Kollegen warnen, dass die Veröffentlichung von KI-generierten Daten im Internet die Datensammlung für das Training zukünftiger Modelle kontaminiert. Daher müsse dieses Problem ernst genommen werden, um auch in Zukunft vom Internet als Trainingsmaterial profitieren zu können.
Die Gefahr dieser Degeneration betrifft nicht nur Textgeneratoren, sondern auch andere generative KI-Systeme. Allerdings wurde nicht untersucht, was passiert, wenn ein KI-System nicht mit den eigenen Produkten, sondern mit denen eines anderen KI-Modells trainiert wird. Angesichts der Tatsache, dass das Internet von den Daten verschiedener KI-Modelle überflutet wird, wäre dies ein realistisches Szenario, dessen Auswirkungen noch abzuwarten sind.
Wasserzeichen als mögliche Lösung?
Sollte sich das Szenario der Forscher bewahrheiten, stellt sich die Frage, wie der fatale KI-Kreislauf verhindert werden kann. Eine mögliche Lösung wäre, eine Art Wasserzeichen in alle von künstlicher Intelligenz erzeugten Texte, Bilder oder Videos einzubauen. Dies würde jedoch eine konzertierte Aktion aller Hersteller von generativen KI-Systemen erfordern. Ob Konkurrenten wie OpenAI, Meta, Google und Co zu einer solchen Zusammenarbeit bereit sind, bleibt abzuwarten.
(Nature, 2024; doi: 10.1038/s41586-024-07566-y)