Generative KI erklärt: Wie Maschinen erschaffen lernen
Generative KI ist einer der transformativsten technologischen Veränderungen des 21. Jahrhunderts. Im Gegensatz zu herkömmlichen KI-Systemen, die klassifizieren, vorhersagen oder erkennen, erstellt generative KI Text, Bilder, Audio, Video, Code und sogar dreidimensionale Strukturen. Es ist die Technologie hinter ChatGPT, der Artikel schreibt, Midjourney fotorealistische Kunst malt und GitHub Copilot, der ganze Funktionen aus einem Kommentar ausführt.
In diesem Leitfaden wird erklärt, was generative KI ist, wie sie unter der Haube funktioniert, welche wichtigen Modellarchitekturen ihr zugrunde liegen und wohin sie führt.
1. Was ist generative KI?
Generative KI bezieht sich auf eine Klasse von Modellen der künstlichen Intelligenz, die die statistische Verteilung von Trainingsdaten lernen und dann neue Inhalte generieren, die derselben Verteilung folgen.
Einfacher ausgedrückt: Wenn Sie ein Modell anhand von Millionen von Fotos menschlicher Gesichter trainieren, lernt es die Muster, wie ein Gesicht aussieht – die Platzierung der Augen, die Form einer Nase, die Textur der Haut – und kann dann ein völlig neues Gesicht erzeugen, das es noch nie zuvor gegeben hat.
Der Hauptunterschied zwischen diskriminativen und generativen Modellen:
| Diskriminierende KI | Generative KI |
|---|---|
| Lernt die Grenze zwischen Klassen | Erlernt die vollständige Datenverteilung |
| Eingabe → Bezeichnung / Kategorie | Eingabeaufforderung → Neuer Inhalt (Text, Bild, Audio) |
| Beispiel: Bildklassifikator, Spamfilter | Beispiel: GPT-4, Stable Diffusion, Gemini |
| Antwort: „Ist das eine Katze?“ → Ja/Nein | Antwort: „Erstellen Sie ein Gemälde einer Katze in einem Raumanzug“ |
2. Die Kernarchitekturen hinter generativer KI
Moderne generative KI ist keine einzelne Technologie, sondern eine Familie unterschiedlicher Architekturen, die jeweils für unterschiedliche Bereiche geeignet sind.
2.1 Transformer-basierte Sprachmodelle (LLMs)
Die Transformer-Architektur, die 2017 in der wegweisenden Arbeit „Attention is All You Need“* von Vaswani et al. vorgestellt wurde, ist heute die Grundlage aller wichtigen Sprachmodelle, einschließlich GPT-4, Gemini, Claude und Llama.
Wie es funktioniert:
- Tokenisierung: Eingabetext wird in Token (Unterworteinheiten) aufgeteilt. „Generative KI“ könnte zu
["Genera", "tive", " AI"]werden. - Einbettung: Jeder Token wird in einen hochdimensionalen numerischen Vektor umgewandelt, der seine Bedeutung erfasst.
- Selbstaufmerksamkeitsmechanismus: Jeder Token berechnet Beziehungen (Aufmerksamkeitswerte) mit jedem anderen Token in der Sequenz. Dadurch kann das Modell verstehen, dass sich „Bank“ in „Flussufer“ von „Bank“ in „Bankkonto“ unterscheidet.
- Feed-Forward-Schichten: Jede Position durchläuft ein nichtlineares Feed-Forward-Netzwerk, um komplexe Merkmale zu extrahieren.
- Vorhersage des nächsten Tokens: Autoregressive Modelle wie GPT werden darauf trainiert, den nächstwahrscheinlichsten Token vorherzusagen, wobei dieser Vorgang wiederholt wird, bis die Ausgabe abgeschlossen ist.
Das Ausmaß moderner LLMs ist atemberaubend:
- GPT-4: Geschätzte ~1,8 Billionen Parameter
- Google Gemini Ultra: Billionen Parameter in einer Mixture-of-Experts-Architektur
- Llama 3.1 405B: 405 Milliarden Parameter, Open Source
2.2 Diffusionsmodelle (Bilder und Audio)
Diffusion modelliert Elektrowerkzeuge wie Stable Diffusion, DALL-E 3 und Midjourney. Sie lernen, Bilder durch einen zweistufigen Prozess zu erzeugen:
Weiterleitungsprozess (Schulung):
- Ein reales Bild wird durch das Hinzufügen von Gauß-Rauschen über viele Schritte hinweg (z. B. 1.000 Schritte) zunehmend verfälscht.
- Im letzten Schritt ist das Bild reines Zufallsrauschen.
- Das Modell lernt, das bei jedem Schritt hinzugefügte Rauschen vorherzusagen.
Umgekehrter Prozess (Generierung):
- Beginnen Sie mit reinem Zufallsrauschen.
- Entrauschen Sie das Bild iterativ, geleitet von einer Textaufforderung, die von einem Sprachmodell (wie CLIP) codiert wird.
- Nach 20–50 Entrauschungsschritten entsteht ein fotorealistisches Bild, das der Eingabeaufforderung entspricht.
Die Textkonditionierung wird über Cross-Attention-Schichten innerhalb des U-Net-Backbones (oder DiT – Diffusion Transformer) erreicht, die es ermöglichen, den Rauschprädiktor durch die semantische Bedeutung der Eingabeaufforderung zu steuern.
2.3 Generative Adversarial Networks (GANs)
Bevor Diffusionsmodelle die Vorherrschaft erlangten, waren GANs (eingeführt von Ian Goodfellow im Jahr 2014) der Goldstandard für die Bildsynthese.
GANs bestehen aus zwei konkurrierenden neuronalen Netzen, die gleichzeitig trainiert werden:
- Generator (G): Nimmt zufälliges Rauschen als Eingabe und erzeugt ein gefälschtes Bild, um den Diskriminator zu täuschen.
- Diskriminator (D): Nimmt sowohl echte als auch gefälschte Bilder auf und versucht, sie zu unterscheiden.
Durch diese kontradiktorische Trainingsschleife lernt der Generator nach und nach, realistischere Bilder zu erzeugen. Das Trainingsziel ist ein Minimax-Spiel:
min_G max_D [E[log D(x)] + E[log(1 - D(G(z)))]]
Einschränkungen von GANs: Trainingsinstabilität (Moduskollaps, verschwindende Gradienten) und Schwierigkeiten bei der Generierung sehr unterschiedlicher Ausgaben machten sie weniger geeignet als Diffusionsmodelle für die Generierung im offenen Bereich.
2.4 Variationale Autoencoder (VAEs)
VAEs bieten einen probabilistischen Rahmen zum Erlernen eines komprimierten latenten Raums, der die zugrunde liegende Datenstruktur erfasst. Sie bestehen aus:
- Encoder: Komprimiert Eingabedaten in einen Mittelwert- (μ) und einen Varianzvektor (σ) in einem niedrigdimensionalen latenten Raum.
- Decoder: Rekonstruiert Daten von einem Punkt, der aus der latenten Verteilung entnommen wurde.
VAE werden häufig als Komponente in größeren Systemen verwendet – Stable Diffusion führt beispielsweise seinen Diffusionsprozess innerhalb des komprimierten latenten Raums eines VAE durch (sogenannte Latent Diffusion Models), was den Prozess erheblich beschleunigt.
3. Wie LLMs trainiert werden: Die dreistufige Pipeline
Moderne große Sprachmodelle durchlaufen drei verschiedene Trainingsphasen, bevor sie Benutzer erreichen:
Stufe 1: Vorschulung (Von der Welt lernen)
Das Modell wird mithilfe von selbstüberwachtem Lernen auf einem riesigen Textkorpus (Billionen von Tokens aus Büchern, Websites, Code und wissenschaftlichen Arbeiten) trainiert. Die Aufgabe ist einfach: Sagen Sie den nächsten Token voraus. Es sind keine menschlichen Etiketten erforderlich. Dadurch werden dem Modell Weltwissen, Grammatik, Denkmuster und Programmierfähigkeiten vermittelt.
Stufe 2: Überwachte Feinabstimmung (SFT)
Menschliche Trainer erstellen Tausende hochwertiger Prompt-Response-Paare, die das ideale KI-Verhalten demonstrieren. Das vorab trainierte Modell wird dann anhand dieser Daten feinabgestimmt, um das erwartete Format und den erwarteten Ton für die Gesprächsunterstützung zu lernen.
Stufe 3: Reinforcement Learning from Human Feedback (RLHF)
- Menschliche Bewerter vergleichen Paare von Modellantworten und bewerten, welches besser ist.
- Diese Rankings trainieren ein Belohnungsmodell (RM), das die Antwortqualität bewertet.
- Das Sprachmodell wird dann mithilfe von Proximal Policy Optimization (PPO) optimiert, um Antworten zu generieren, die die Punktzahl des Belohnungsmodells maximieren.
- In dieser Phase werden die Ergebnisse des Modells an den menschlichen Vorlieben ausgerichtet – wodurch es hilfreich, harmlos und ehrlich wird.
4. Schlüsselfunktionen der generativen KI
Textgenerierung
LLMs wie GPT-4 und Gemini können Aufsätze schreiben, Dokumente zusammenfassen, Fragen beantworten, Sprachen übersetzen, Code schreiben und komplexe mehrstufige Probleme lösen. Fortgeschrittene Modelle verwenden Chain-of-Thought (CoT)-Eingabeaufforderungen, um ihre Argumentation darzustellen, wodurch die Genauigkeit bei logischen und mathematischen Aufgaben erheblich verbessert wird.
Bild- und Videogenerierung
Diffusionsmodelle können fotorealistische Bilder, künstlerische Illustrationen und jetzt auch vollständige Videosequenzen erzeugen (z. B. Google Veo, OpenAI Sora). Text-zu-Video-Modelle arbeiten mit räumlich-zeitlichen latenten Räumen und dehnen den Entrauschungsprozess sowohl über die Zeit als auch über den Raum aus.
Codegenerierung
Auf Code abgestimmte Modelle (z. B. GitHub Copilot powered by Codex, Gemini Code Assist) können Funktionen automatisch vervollständigen, ganze Module aus Beschreibungen in natürlicher Sprache generieren, Komponententests schreiben und vorhandenen Code erklären.
Audio- und Musikgenerierung
Modelle wie Whisper (Speech-to-Text) und MusicGen (Musik aus Textansagen) von OpenAI zeigen, dass sich das generative Paradigma fließend auf den Audiobereich ausdehnt und auf Spektrogrammen oder Audio-Tokens basiert.
Multimodale Generierung
Die Grenze der generativen KI sind multimodale Modelle – Systeme, die Text, Bilder, Audio und Video gleichzeitig verarbeiten und generieren können. Modelle wie Gemini 1.5 Pro können über ein zweistündiges Video, eine Codebasis und ein PDF-Dokument in einem einzigen Kontextfenster mit 1 Million Token nachdenken.
5. Prompt Engineering: Modellfähigkeiten freischalten
Die Qualität der Ausgabe eines generativen Modells hängt stark davon ab, wie die Eingabeaufforderung strukturiert ist. Prompt Engineering ist die Praxis, Eingaben zu erstellen, die die besten Antworten hervorrufen:
- Zero-Shot-Prompting: Bitten Sie das Modell direkt, eine Aufgabe ohne Beispiele auszuführen.
- Few-Shot-Eingabeaufforderung: Geben Sie in der Eingabeaufforderung selbst zwei bis fünf Beispiele für das gewünschte Eingabe-/Ausgabeformat an. Das Modell leitet das Muster ab und wendet es auf eine neue Eingabe an.
- Gedankenkette (CoT): Fügen Sie „Lass uns Schritt für Schritt denken“ hinzu, um das Modell zu ermutigen, das Problem zu durchdenken, bevor es eine Antwort gibt.
- Systemanweisungen: Bereiten Sie das Modell mit einer Persona oder Verhaltenseinschränkung vor (z. B. „Sie sind ein leitender Sicherheitsingenieur. Seien Sie präzise und prägnant.“).
6. Generative KI vs. traditionelle KI: Ein Vergleich
| Dimension | Traditionelle KI | Generative KI |
|---|---|---|
| Hauptaufgabe | Klassifizierung, Regression, Erkennung | Inhaltsgenerierung, Synthese, Argumentation |
| Ausgabetyp | Beschriftung, Wahrscheinlichkeit, Begrenzungsrahmen | Text, Bild, Audio, Code, Video |
| Trainingsparadigma | Überwachtes Lernen (beschriftete Datensätze) | Selbstüberwacht + RLHF (massive unbeschriftete Daten) |
| Flexibilität | Schmal (eine Aufgabe pro Modell) | Breit (ein Modell, viele Aufgaben) |
| Skala der Parameter | Tausende bis Millionen | Milliarden zu Billionen |
| Hauptrisiken | Verzerrung in Vorhersagen | Halluzination, Missbrauch, Urheberrechtsbedenken |
7. Herausforderungen und Einschränkungen
Trotz bemerkenswerter Fähigkeiten weist generative KI erhebliche Einschränkungen auf, die Ingenieure verstehen müssen:
- Halluzination: LLMs können sicher sachlich falsche Informationen generieren, da sie auf symbolische Wahrscheinlichkeit und nicht auf sachliche Wahrheit optimieren. Zu den Lösungen gehören RAG (Retrieval-Augmented Generation) und Erdung mit verifizierten Quellen.
- Kontextfenster-Beschränkungen: Obwohl Modelle wie Gemini 1.5 Pro jetzt mehr als 1 Million Token-Kontexte unterstützen, unterliegen die meisten Produktionsmodelle Einschränkungen, die eine sorgfältige Aufteilung langer Dokumente erfordern.
- Verzerrung und Sicherheit: Modelle spiegeln die in ihren Trainingsdaten vorhandenen Verzerrungen wider. Ausrichtungstechniken (RLHF, Constitutional AI) helfen, aber das Problem ist nicht vollständig gelöst.
- Inferenzkosten: Die Ausführung eines Billionen-Parameter-Modells erfordert eine erhebliche GPU-Infrastruktur. Techniken wie Quantisierung, spekulative Dekodierung und Modelldestillation reduzieren diese Kosten.
- Urheberrecht und geistiges Eigentum: Wenn Modelle an urheberrechtlich geschützten Daten geschult werden, können sie geschützte Inhalte reproduzieren, was ungelöste rechtliche Fragen zum geistigen Eigentum aufwirft.
8. Die Zukunft der generativen KI
Die Entwicklung der generativen KI weist auf mehrere wichtige Entwicklungen hin:
- Agentische KI: Mit Tools (Websuche, Codeausführung, Dateizugriff) ausgestattete LLMs entwickeln sich zu autonomen Agenten, die mehrstufige Aufgaben über längere Zeiträume planen und ausführen. Frameworks wie LangGraph, AutoGen und das Agent Development Kit (ADK) von Google ermöglichen dies.
- Weltmodelle: Modelle der nächsten Generation, die eine komprimierte, prädiktive Darstellung der physischen Realität erlernen und es Robotern ermöglichen, über die physische Welt nachzudenken und mit ihr zu interagieren.
- Personalisierung im Maßstab: Kleine Sprachmodelle (SLMs) auf dem Gerät, die auf Telefonen und Laptops ausgeführt werden, ermöglichen private, personalisierte KI-Assistenten ohne Cloud-Abhängigkeit.
- Wissenschaftliche Entdeckung: Generative Modelle werden bereits verwendet, um neue Proteine zu entwerfen (AlphaFold 3), neuartige Arzneimittelmoleküle vorzuschlagen und die materialwissenschaftliche Forschung zu beschleunigen.
Abschluss
Generative KI ist kein Produkt – es ist ein neues Computerparadigma. Indem sie lernen, die Verbreitung von von Menschen erstellten Inhalten zu modellieren, sind diese Systeme in der Lage, als kreative Kollaborateure, unermüdliche Programmierer, medizinische Forscher und autonome Problemlöser zu agieren. Das Verständnis der Architektur und der Trainingspipelines hinter diesen Modellen ist für Ingenieure und Technologen nicht mehr optional – es ist wesentliches Wissen für die Entwicklung der nächsten Generation intelligenter Software.