
Du tippst einen Satz. Eine Minute später hast du ein Bild.
Genau das macht Text-zu-Bild-KI im Jahr 2026. Dieser Guide geht jeden Schritt durch — ein Modell wählen, einen Prompt schreiben, der kein Matschbild produziert, die sechsfingrigen Hände reparieren, und Bilder liefern, die du auf einer echten Website verwenden kannst.
Wir betreiben Anyscene, also haben wir viele schlechte Bilder generiert, bevor wir herausgefunden haben, was funktioniert. Alles, was folgt, ist das, was uns am ersten Tag jemand hätte sagen sollen.
Scroll weiter für die Kurzfassung. Setz ein Lesezeichen für die lange.
Was Text-zu-Bild-KI tatsächlich macht
Die meisten Tutorials überspringen diesen Teil. Tu es nicht. Wenn du die Form des Modells kennst, änderst du, wie du es ansprichst.
Wie Diffusionsmodelle funktionieren, verständlich erklärt
Nimm ein Foto. Füg so lange zufälliges Rauschen hinzu, bis es wie Fernsehrauschen aussieht. Jetzt bring einem neuronalen Netz bei, den Prozess umzukehren — das Rauschen Schicht für Schicht abzuziehen, während ein Text-Prompt verrät, was darunter sein soll.
Mach das ein paar hundert Millionen Mal während des Trainings, und du bekommst Midjourney, Flux oder Stable Diffusion. Das ist der ganze Trick.

Zwei Dinge folgen daraus. Erstens: Das Modell hat dein exaktes Bild nie gesehen — es rekonstruiert eines, das zu deiner Beschreibung passt. Zweitens: Der Prompt macht die meiste Arbeit. Sind deine Worte vage, füllt das Modell die Lücken mit dem, was in seinen Trainingsdaten am häufigsten vorkam. Darum liefert ein fauler Prompt ein generisches Stockfoto.
Text-zu-Bild, Bild-zu-Text und Bildbearbeitung
Die Leute verwechseln diese drei ständig. Es sind drei verschiedene Jobs.
| Aufgabe | Du gibst | Du bekommst | Beispiel-Tools |
|---|---|---|---|
| Text-zu-Bild | Wörter | Ein neues Bild | Anyscene, Midjourney, Flux |
| Bild-zu-Text (OCR) | Ein Bild | Den Text darin | Google Lens, Tesseract |
| Bildbearbeitung | Ein Bild + Anweisungen | Dasselbe Bild, verändert | Photoshop KI, Canva |
Dieser Guide handelt vom ersten. Bist du hier gelandet, um Text aus einem Screenshot zu kopieren, schließ den Tab und such nach „OCR".
Ein Bild aus Text in vier Schritten generieren

Schritt 1 — Wähl ein Modell, das zu deinem Job passt
Jedes Modell hat einen Charakter. Das falsche zu nehmen ist, als würdest du einen Sportfotografen für eine Hochzeit buchen.
- Fotorealismus → Flux 1.1 Pro oder Midjourney V7. Beide meistern Haut, Stoff und natürliches Licht, ohne plastisch zu wirken.
- Stilisierte Kunst oder Illustration → Midjourney V7 oder SDXL. Bessere Farbkomposition direkt aus der Box.
- Text im Bild (Poster, Schilder, Logos) → Flux Pro oder DALL·E 3. Ältere Modelle machen aus Wörtern Buchstabensalat.
- Tempo vor Qualität → Flux Schnell. Unter zwei Sekunden pro Bild, nützlich für schnelles Iterieren.
Wenn du noch unsicher bist, wähl eins und bleib einen Nachmittag dabei. Alle zehn Minuten zwischen Tools wechseln bringt dir nichts.
Schritt 2 — Schreib einen Prompt mit vier Teilen
Ein guter Prompt beantwortet vier Fragen. Fehlt eine, rät das Modell — und seine Vermutung ist meistens generisch.
| Teil | Frage | Beispiel |
|---|---|---|
| Motiv | Was ist im Bild? | a border collie catching a frisbee |
| Szene | Wo und wann? | on a windy beach, late afternoon light |
| Stil | Wie sieht es aus? | shot on Fujifilm X-T5, 35mm, shallow depth of field |
| Qualität | Wie poliert? | sharp focus, natural colors, no filter |
Zusammensetzen:
a border collie catching a frisbee on a windy beach, late afternoon light,
shot on Fujifilm X-T5, 35mm, shallow depth of field, sharp focus, natural colorsDas war's. Keine Zauberwörter, keine geheimen Parameter. Das hat dieser Prompt uns geliefert:

Schritt 3 — Stell drei Parameter ein (und ignorier den Rest)
Die meisten Plattformen werfen dir fünfzehn Regler hin. Du brauchst nur drei.
- Seed — gleicher Seed plus gleicher Prompt ergibt dasselbe Bild. Behalte den, den du magst, um drumherum zu iterieren.
- Steps — mehr Schritte, mehr Details, längere Wartezeit. 30 ist der Sweet Spot. Über 50 bringt kaum noch was.
- CFG / Guidance — wie eng das Modell sich an deinen Prompt hält. Standard ist 7. Geh auf 10 für Präzision, runter auf 4 für kreative Freiheit.
Alles andere — Sampler, Scheduler, Clip Skip — zählt weniger als ein besserer Prompt.
Schritt 4 — Iterier, statt neu anzufangen
Das erste Bild sitzt nie. Das zweite meistens auch nicht.
Änder immer nur eine Sache. Tausch das Objektiv, nicht die ganze Szene. Tausch die Tageszeit, nicht das Motiv. Merk dir, welches Wort das Bild bewegt hat — das ist hier die eigentliche Fähigkeit, und sie baut sich über etwa fünfzig Generierungen auf.
Wenn der zwanzigste Versuch noch immer schief wirkt, liegt es meistens nicht am Prompt. Es liegt am Modell. Zurück zu Schritt 1.
Die Tools, die sich 2026 lohnen
Preise und Funktionen ändern sich alle paar Monate. Zum Zeitpunkt dieses Artikels liegt jeder wo anders vorne.
| Tool | Ideal für | Tempo | Preis | Stärke |
|---|---|---|---|---|
| Anyscene | Szenenbasierte Generierung, Marketer | ~8 s | Gratis + kostenpflichtig | Szenen-Presets, Varianten per Klick |
| Midjourney V7 | Schönheit direkt out of the box | ~15 s | Ab 10 $/Monat | Keine Nachbearbeitung nötig |
| Flux 1.1 Pro | Realismus, lesbarer Text | ~10 s | Pay-per-Image | Hände, Gesichter, Typografie |
| Stable Diffusion 3.5 | Open Source, lokal | Hängt vom GPU ab | Gratis | Volle Kontrolle, keine Zensur |
| DALL·E 3 | Dialog-basierte Bearbeitung | ~20 s | Über ChatGPT Plus | Mehrfach-Verfeinerung |
Unsere ehrliche Einschätzung: Starte mit Anyscene oder Midjourney, wenn du heute Ergebnisse willst. Wechsel zu Flux, wenn du Text im Bild oder kommerziellen Realismus brauchst. Pack Stable Diffusion nur an, wenn du einen GPU und ein Wochenende übrig hast.
Prompt Engineering, das das Bild wirklich bewegt
Die meisten „Prompt-Guides" drehen zwölf Absätze um die gleichen fünf Ideen. Hier die Kurzfassung.
Die 4-Teile-Formel, noch einmal
Motiv · Szene · Stil · Qualität. Nutz sie für jeden Prompt. Einprägen und Schluss mit Prompt-Guides.
Zehn Prompt-Templates zum Kopieren
Einen einfügen, das Hauptwort austauschen, und du hast einen funktionierenden Prompt.
1. Product photography: matte-white ceramic {product} on a peach-to-coral
gradient background, studio softbox lighting, soft shadow, centered, 1:1.
2. Isometric SaaS illustration: a cloud dashboard with floating charts,
pastel palette, clean lines, marketing style, 16:9.
3. Anime portrait: young woman with short black hair, cherry blossoms
drifting, cel shading, pastel colors, 2:3.
4. Architectural concept: modernist house with glass walls, cantilevered
over a pine forest at dusk, warm interior glow, cinematic, 16:9.
5. Botanical watercolor: eucalyptus sprig, loose brushstrokes, soft greens,
paper texture, white background, 1:1.
6. Low-poly 3D scene: tiny mountain village with pine trees and a river,
mint and sky-blue palette, soft ambient occlusion, 16:9.
7. Pixel art: cozy wizard's study, bookshelves, crystal ball, black cat,
warm candlelight, 16-bit style, 1:1.
8. Minimalist line drawing: hand holding a coffee cup, thin black line
on off-white paper, centered, 1:1.
9. Cyberpunk cityscape: neon pink and teal signage, wet streets, light
rain, lone silhouette, anamorphic lens, 16:9.
10. Studio food photography: overhead shot of ramen with soft-boiled egg,
scallions, nori, dark slate background, side lighting, 1:1.Jedes folgt Motiv · Szene · Stil · Qualität. Lies sie noch einmal mit dieser Brille.
Negative Prompts
Unterstützt dein Modell sie, sparen negative Prompts dir die Hälfte der Wiederholungen. Pack das ins Negativfeld und geh weiter:
blurry, extra fingers, deformed hands, text artifacts, watermark,
low contrast, oversaturated, distorted faceModelle ohne Negativfeld (DALL·E 3) ignorieren das. Modelle mit Negativfeld (Flux, SD, Midjourney mit --no) werden es dir danken.
Wenn das Bild kaputt rauskommt: eine Fix-Tabelle
Den Teil lassen die meisten Guides weg. Wenn dein Output schief ist, brauchst du nicht mehr Theorie — du brauchst eine Nachschlagetabelle.
| Problem | Warum | Fix |
|---|---|---|
| Sechs Finger, geschmolzene Hände | Modelle unterlernt bei Gliedmaßen | Füg anatomically correct hands, five fingers hinzu; pack deformed hands, extra fingers ins Negativfeld |
| Verzerrter Text auf Schildern | Tokenizer kann nicht buchstabieren | Wechsel zu Flux Pro oder DALL·E 3; halt den Text unter vier Wörtern; pack ihn in Anführungszeichen |
| Gesicht wirkt schief | Seitenverhältnis zu breit | Nimm 2:3 oder 3:4 für Porträts, nicht 16:9 |
| Ausgewaschene Farben | CFG zu niedrig | Heb die Guidance auf 8–10 |
| Alle Gesichter sehen gleich aus | Bias des Standard-Checkpoints | Füg konkrete Ethnie, Alter und Merkmale hinzu |
| Seltsames oder flaches Licht | Keine Lichtrichtung im Prompt | Füg rim light, golden hour oder studio softbox hinzu |
| Motiv winzig, geht in der Szene unter | Kein Rahmungswort | Füg close-up, medium shot oder wide angle hinzu |
| Bild sieht KI-generiert aus | Haut zu glatt, Gesicht zu symmetrisch | Füg film grain, natural imperfections, asymmetric features hinzu |
Laminier die Tabelle. Du kommst wieder.
Wofür Leute das tatsächlich nutzen
Nicht für Kunstausstellungen. Für echten, langweiligen, nützlichen Kram.
Blog- und Artikel-Visuals. Stockfotos zu ersetzen ist der größte einzelne Anwendungsfall, den wir sehen. Ein Prompt, kein Lizenz-Tanz, passt exakt zu deinem Thema. Dieser Guide nutzt drei davon.
Produkt-Mockups. Ein Verpackungsdesign sehen, bevor ein Designer es anfasst. Fünf Flaschenformen an einem Nachmittag testen. Die falschen aussortieren, bevor das teure Rendering läuft.
Social-Content. Zehn Post-Varianten an einem Nachmittag statt in zehn Stunden. Gleicher Prompt, unterschiedliche Seeds, du behältst die zwei besten.
Storyboards und Konzeptarbeit. Eine Idee visuell testen, bevor du ein Budget freigibst. Nützlich für Kampagnen, Produkt-Launches und alles, was im Management präsentiert werden muss.
Listings und Kataloge. Hintergrundvarianten für dasselbe Produktfoto generieren. Nützlich, wenn du ein Foto und fünf Kampagnen hast.
Willst du dich selbst in diese Bilder setzen? Lies Wie du dich in einen KI-Bildgenerator einbaust →
Das Rechtliche in 30 Sekunden
Kurzfassung: Kommerzielle Nutzung ist meistens okay, wenn die Lizenz des Tools es erlaubt. Anyscene, die bezahlten Midjourney-Tarife, Flux Pro und DALL·E 3 erlauben alle kommerzielle Outputs.
Zwei Dinge können dir trotzdem Ärger einbringen. Prompts, die den Stil eines lebenden Künstlers nennen (in the style of [Name]), sind bestenfalls Grauzone, schlimmstenfalls angreifbar. Outputs, die eine markenrechtlich geschützte Figur reproduzieren — Micky Maus, ein Pokémon, ein Firmenlogo — liegen in deiner Verantwortung, nicht in der des Tools.
In einigen Ländern ist inzwischen eine KI-Kennzeichnung für Werbung und redaktionelle Inhalte vorgeschrieben. Prüf die örtlichen Regeln, bevor du veröffentlichst.
Häufig gestellte Fragen
Ist KI-Text-zu-Bild kostenlos? Ja, mit begrenzten Tagesgenerierungen auf den meisten Plattformen, Anyscene inklusive. Bezahlte Tarife bringen dir Tempo, höhere Auflösung und eine kommerzielle Lizenz.
Welcher KI-Bildgenerator ist am besten für Einsteiger? Anyscene oder Midjourney. Beide funktionieren mit einfachem Deutsch oder Englisch. Am ersten Tag keine Parameter lernen.
Darf ich KI-generierte Bilder kommerziell nutzen? In den meisten bezahlten Tarifen ja. Prüf die Lizenzseite deines Plans. Bilder aus Gratis-Tarifen kommen oft mit Nutzungsbeschränkungen.
Brauche ich einen GPU? Nur wenn du Stable Diffusion lokal laufen lässt. Web-Tools übernehmen die Rechenarbeit für dich.
Wie lange dauert ein Bild? Zwei Sekunden bei schnellen Modellen wie Flux Schnell. Bis zu 30 Sekunden bei hochqualitativen.
Warum sehen meine Bilder immer gleich aus? Gleicher Seed, oder zu kurzer Prompt. Änder eines von beidem.
Kann die KI lesbaren Text ins Bild schreiben? Flux Pro und DALL·E 3 können das. Halt den Text unter vier Wörtern. Ältere Modelle massakrieren alles, was länger ist.
Ersetzt das Designer? Für Stockfotos und Konzeptskizzen weitgehend ja. Für Markenidentität und Produktionskunst nein — jemand muss immer noch entscheiden, was gut ist.
Tipp den ersten Satz. Das ist der einzige Schritt, der zählt.
Öffne Anyscene und generier dein erstes Bild →
Als Nächstes: Wie Kling 2.6 die Videogenerierung verändert hat →

