KI-Bilder aus Text generieren: Der komplette Guide (2026)

Apr. 18, 2026

Ablauf eines KI-Text-zu-Bild-Generators: ein Prompt auf einem Laptop, gerendert als fertiges Foto

Du tippst einen Satz. Eine Minute später hast du ein Bild.

Genau das macht Text-zu-Bild-KI im Jahr 2026. Dieser Guide geht jeden Schritt durch — ein Modell wählen, einen Prompt schreiben, der kein Matschbild produziert, die sechsfingrigen Hände reparieren, und Bilder liefern, die du auf einer echten Website verwenden kannst.

Wir betreiben Anyscene, also haben wir viele schlechte Bilder generiert, bevor wir herausgefunden haben, was funktioniert. Alles, was folgt, ist das, was uns am ersten Tag jemand hätte sagen sollen.

Scroll weiter für die Kurzfassung. Setz ein Lesezeichen für die lange.

Was Text-zu-Bild-KI tatsächlich macht

Die meisten Tutorials überspringen diesen Teil. Tu es nicht. Wenn du die Form des Modells kennst, änderst du, wie du es ansprichst.

Wie Diffusionsmodelle funktionieren, verständlich erklärt

Nimm ein Foto. Füg so lange zufälliges Rauschen hinzu, bis es wie Fernsehrauschen aussieht. Jetzt bring einem neuronalen Netz bei, den Prozess umzukehren — das Rauschen Schicht für Schicht abzuziehen, während ein Text-Prompt verrät, was darunter sein soll.

Mach das ein paar hundert Millionen Mal während des Trainings, und du bekommst Midjourney, Flux oder Stable Diffusion. Das ist der ganze Trick.

Wie Diffusionsmodelle funktionieren: vier Stufen vom zufälligen Rauschen bis zum scharfen Foto einer Katze

Zwei Dinge folgen daraus. Erstens: Das Modell hat dein exaktes Bild nie gesehen — es rekonstruiert eines, das zu deiner Beschreibung passt. Zweitens: Der Prompt macht die meiste Arbeit. Sind deine Worte vage, füllt das Modell die Lücken mit dem, was in seinen Trainingsdaten am häufigsten vorkam. Darum liefert ein fauler Prompt ein generisches Stockfoto.

Text-zu-Bild, Bild-zu-Text und Bildbearbeitung

Die Leute verwechseln diese drei ständig. Es sind drei verschiedene Jobs.

AufgabeDu gibstDu bekommstBeispiel-Tools
Text-zu-BildWörterEin neues BildAnyscene, Midjourney, Flux
Bild-zu-Text (OCR)Ein BildDen Text darinGoogle Lens, Tesseract
BildbearbeitungEin Bild + AnweisungenDasselbe Bild, verändertPhotoshop KI, Canva

Dieser Guide handelt vom ersten. Bist du hier gelandet, um Text aus einem Screenshot zu kopieren, schließ den Tab und such nach „OCR".

Ein Bild aus Text in vier Schritten generieren

Vier Schritte zur Generierung eines KI-Bilds aus Text: Modell wählen, Prompt schreiben, Parameter einstellen, Ergebnis ansehen

Schritt 1 — Wähl ein Modell, das zu deinem Job passt

Jedes Modell hat einen Charakter. Das falsche zu nehmen ist, als würdest du einen Sportfotografen für eine Hochzeit buchen.

  • Fotorealismus → Flux 1.1 Pro oder Midjourney V7. Beide meistern Haut, Stoff und natürliches Licht, ohne plastisch zu wirken.
  • Stilisierte Kunst oder Illustration → Midjourney V7 oder SDXL. Bessere Farbkomposition direkt aus der Box.
  • Text im Bild (Poster, Schilder, Logos) → Flux Pro oder DALL·E 3. Ältere Modelle machen aus Wörtern Buchstabensalat.
  • Tempo vor Qualität → Flux Schnell. Unter zwei Sekunden pro Bild, nützlich für schnelles Iterieren.

Wenn du noch unsicher bist, wähl eins und bleib einen Nachmittag dabei. Alle zehn Minuten zwischen Tools wechseln bringt dir nichts.

Schritt 2 — Schreib einen Prompt mit vier Teilen

Ein guter Prompt beantwortet vier Fragen. Fehlt eine, rät das Modell — und seine Vermutung ist meistens generisch.

TeilFrageBeispiel
MotivWas ist im Bild?a border collie catching a frisbee
SzeneWo und wann?on a windy beach, late afternoon light
StilWie sieht es aus?shot on Fujifilm X-T5, 35mm, shallow depth of field
QualitätWie poliert?sharp focus, natural colors, no filter

Zusammensetzen:

a border collie catching a frisbee on a windy beach, late afternoon light,
shot on Fujifilm X-T5, 35mm, shallow depth of field, sharp focus, natural colors

Das war's. Keine Zauberwörter, keine geheimen Parameter. Das hat dieser Prompt uns geliefert:

KI-generiertes Foto eines Border Collies, der einen roten Frisbee an einem windigen Strand zur goldenen Stunde fängt

Schritt 3 — Stell drei Parameter ein (und ignorier den Rest)

Die meisten Plattformen werfen dir fünfzehn Regler hin. Du brauchst nur drei.

  • Seed — gleicher Seed plus gleicher Prompt ergibt dasselbe Bild. Behalte den, den du magst, um drumherum zu iterieren.
  • Steps — mehr Schritte, mehr Details, längere Wartezeit. 30 ist der Sweet Spot. Über 50 bringt kaum noch was.
  • CFG / Guidance — wie eng das Modell sich an deinen Prompt hält. Standard ist 7. Geh auf 10 für Präzision, runter auf 4 für kreative Freiheit.

Alles andere — Sampler, Scheduler, Clip Skip — zählt weniger als ein besserer Prompt.

Schritt 4 — Iterier, statt neu anzufangen

Das erste Bild sitzt nie. Das zweite meistens auch nicht.

Änder immer nur eine Sache. Tausch das Objektiv, nicht die ganze Szene. Tausch die Tageszeit, nicht das Motiv. Merk dir, welches Wort das Bild bewegt hat — das ist hier die eigentliche Fähigkeit, und sie baut sich über etwa fünfzig Generierungen auf.

Wenn der zwanzigste Versuch noch immer schief wirkt, liegt es meistens nicht am Prompt. Es liegt am Modell. Zurück zu Schritt 1.

Die Tools, die sich 2026 lohnen

Preise und Funktionen ändern sich alle paar Monate. Zum Zeitpunkt dieses Artikels liegt jeder wo anders vorne.

ToolIdeal fürTempoPreisStärke
AnysceneSzenenbasierte Generierung, Marketer~8 sGratis + kostenpflichtigSzenen-Presets, Varianten per Klick
Midjourney V7Schönheit direkt out of the box~15 sAb 10 $/MonatKeine Nachbearbeitung nötig
Flux 1.1 ProRealismus, lesbarer Text~10 sPay-per-ImageHände, Gesichter, Typografie
Stable Diffusion 3.5Open Source, lokalHängt vom GPU abGratisVolle Kontrolle, keine Zensur
DALL·E 3Dialog-basierte Bearbeitung~20 sÜber ChatGPT PlusMehrfach-Verfeinerung

Unsere ehrliche Einschätzung: Starte mit Anyscene oder Midjourney, wenn du heute Ergebnisse willst. Wechsel zu Flux, wenn du Text im Bild oder kommerziellen Realismus brauchst. Pack Stable Diffusion nur an, wenn du einen GPU und ein Wochenende übrig hast.

Prompt Engineering, das das Bild wirklich bewegt

Die meisten „Prompt-Guides" drehen zwölf Absätze um die gleichen fünf Ideen. Hier die Kurzfassung.

Die 4-Teile-Formel, noch einmal

Motiv · Szene · Stil · Qualität. Nutz sie für jeden Prompt. Einprägen und Schluss mit Prompt-Guides.

Zehn Prompt-Templates zum Kopieren

Einen einfügen, das Hauptwort austauschen, und du hast einen funktionierenden Prompt.

1. Product photography: matte-white ceramic {product} on a peach-to-coral
   gradient background, studio softbox lighting, soft shadow, centered, 1:1.

2. Isometric SaaS illustration: a cloud dashboard with floating charts,
   pastel palette, clean lines, marketing style, 16:9.

3. Anime portrait: young woman with short black hair, cherry blossoms
   drifting, cel shading, pastel colors, 2:3.

4. Architectural concept: modernist house with glass walls, cantilevered
   over a pine forest at dusk, warm interior glow, cinematic, 16:9.

5. Botanical watercolor: eucalyptus sprig, loose brushstrokes, soft greens,
   paper texture, white background, 1:1.

6. Low-poly 3D scene: tiny mountain village with pine trees and a river,
   mint and sky-blue palette, soft ambient occlusion, 16:9.

7. Pixel art: cozy wizard's study, bookshelves, crystal ball, black cat,
   warm candlelight, 16-bit style, 1:1.

8. Minimalist line drawing: hand holding a coffee cup, thin black line
   on off-white paper, centered, 1:1.

9. Cyberpunk cityscape: neon pink and teal signage, wet streets, light
   rain, lone silhouette, anamorphic lens, 16:9.

10. Studio food photography: overhead shot of ramen with soft-boiled egg,
    scallions, nori, dark slate background, side lighting, 1:1.

Jedes folgt Motiv · Szene · Stil · Qualität. Lies sie noch einmal mit dieser Brille.

Negative Prompts

Unterstützt dein Modell sie, sparen negative Prompts dir die Hälfte der Wiederholungen. Pack das ins Negativfeld und geh weiter:

blurry, extra fingers, deformed hands, text artifacts, watermark,
low contrast, oversaturated, distorted face

Modelle ohne Negativfeld (DALL·E 3) ignorieren das. Modelle mit Negativfeld (Flux, SD, Midjourney mit --no) werden es dir danken.

Wenn das Bild kaputt rauskommt: eine Fix-Tabelle

Den Teil lassen die meisten Guides weg. Wenn dein Output schief ist, brauchst du nicht mehr Theorie — du brauchst eine Nachschlagetabelle.

ProblemWarumFix
Sechs Finger, geschmolzene HändeModelle unterlernt bei GliedmaßenFüg anatomically correct hands, five fingers hinzu; pack deformed hands, extra fingers ins Negativfeld
Verzerrter Text auf SchildernTokenizer kann nicht buchstabierenWechsel zu Flux Pro oder DALL·E 3; halt den Text unter vier Wörtern; pack ihn in Anführungszeichen
Gesicht wirkt schiefSeitenverhältnis zu breitNimm 2:3 oder 3:4 für Porträts, nicht 16:9
Ausgewaschene FarbenCFG zu niedrigHeb die Guidance auf 8–10
Alle Gesichter sehen gleich ausBias des Standard-CheckpointsFüg konkrete Ethnie, Alter und Merkmale hinzu
Seltsames oder flaches LichtKeine Lichtrichtung im PromptFüg rim light, golden hour oder studio softbox hinzu
Motiv winzig, geht in der Szene unterKein RahmungswortFüg close-up, medium shot oder wide angle hinzu
Bild sieht KI-generiert ausHaut zu glatt, Gesicht zu symmetrischFüg film grain, natural imperfections, asymmetric features hinzu

Laminier die Tabelle. Du kommst wieder.

Wofür Leute das tatsächlich nutzen

Nicht für Kunstausstellungen. Für echten, langweiligen, nützlichen Kram.

Blog- und Artikel-Visuals. Stockfotos zu ersetzen ist der größte einzelne Anwendungsfall, den wir sehen. Ein Prompt, kein Lizenz-Tanz, passt exakt zu deinem Thema. Dieser Guide nutzt drei davon.

Produkt-Mockups. Ein Verpackungsdesign sehen, bevor ein Designer es anfasst. Fünf Flaschenformen an einem Nachmittag testen. Die falschen aussortieren, bevor das teure Rendering läuft.

Social-Content. Zehn Post-Varianten an einem Nachmittag statt in zehn Stunden. Gleicher Prompt, unterschiedliche Seeds, du behältst die zwei besten.

Storyboards und Konzeptarbeit. Eine Idee visuell testen, bevor du ein Budget freigibst. Nützlich für Kampagnen, Produkt-Launches und alles, was im Management präsentiert werden muss.

Listings und Kataloge. Hintergrundvarianten für dasselbe Produktfoto generieren. Nützlich, wenn du ein Foto und fünf Kampagnen hast.

Willst du dich selbst in diese Bilder setzen? Lies Wie du dich in einen KI-Bildgenerator einbaust →

Das Rechtliche in 30 Sekunden

Kurzfassung: Kommerzielle Nutzung ist meistens okay, wenn die Lizenz des Tools es erlaubt. Anyscene, die bezahlten Midjourney-Tarife, Flux Pro und DALL·E 3 erlauben alle kommerzielle Outputs.

Zwei Dinge können dir trotzdem Ärger einbringen. Prompts, die den Stil eines lebenden Künstlers nennen (in the style of [Name]), sind bestenfalls Grauzone, schlimmstenfalls angreifbar. Outputs, die eine markenrechtlich geschützte Figur reproduzieren — Micky Maus, ein Pokémon, ein Firmenlogo — liegen in deiner Verantwortung, nicht in der des Tools.

In einigen Ländern ist inzwischen eine KI-Kennzeichnung für Werbung und redaktionelle Inhalte vorgeschrieben. Prüf die örtlichen Regeln, bevor du veröffentlichst.

Häufig gestellte Fragen

Ist KI-Text-zu-Bild kostenlos? Ja, mit begrenzten Tagesgenerierungen auf den meisten Plattformen, Anyscene inklusive. Bezahlte Tarife bringen dir Tempo, höhere Auflösung und eine kommerzielle Lizenz.

Welcher KI-Bildgenerator ist am besten für Einsteiger? Anyscene oder Midjourney. Beide funktionieren mit einfachem Deutsch oder Englisch. Am ersten Tag keine Parameter lernen.

Darf ich KI-generierte Bilder kommerziell nutzen? In den meisten bezahlten Tarifen ja. Prüf die Lizenzseite deines Plans. Bilder aus Gratis-Tarifen kommen oft mit Nutzungsbeschränkungen.

Brauche ich einen GPU? Nur wenn du Stable Diffusion lokal laufen lässt. Web-Tools übernehmen die Rechenarbeit für dich.

Wie lange dauert ein Bild? Zwei Sekunden bei schnellen Modellen wie Flux Schnell. Bis zu 30 Sekunden bei hochqualitativen.

Warum sehen meine Bilder immer gleich aus? Gleicher Seed, oder zu kurzer Prompt. Änder eines von beidem.

Kann die KI lesbaren Text ins Bild schreiben? Flux Pro und DALL·E 3 können das. Halt den Text unter vier Wörtern. Ältere Modelle massakrieren alles, was länger ist.

Ersetzt das Designer? Für Stockfotos und Konzeptskizzen weitgehend ja. Für Markenidentität und Produktionskunst nein — jemand muss immer noch entscheiden, was gut ist.


Tipp den ersten Satz. Das ist der einzige Schritt, der zählt.

Öffne Anyscene und generier dein erstes Bild →

Als Nächstes: Wie Kling 2.6 die Videogenerierung verändert hat →

Anyscene-Team

Anyscene-Team