Tage
Stunden
Minuten
Tage
Stunden
Minuten

Hallo👋 schön, dass du hier bist.

Generiere KI Texte und Bilder gratis jeden Monat! Inklusive Chatbot, Browser Extension, SEO Analyse und mehr.

Inhaltsverzeichnis

DALL-E 2: OpenAI’s Text zu Bild Generator

In diesem Blog erfahrt ihr, was DALL-E 2 ist und wie die Funktionen des Text zu Bild Generators die Tech-Welt revolutionieren werden.

Wir haben auf unserem Blog schon einige Artikel zum Thema künstliche Intelligenz verfasst. So haben wir zum Beispiel darüber geschrieben, wie GPT-3 funktioniert und wie Textgeneratoren deine Inhalte verbessern können. Doch nun schlägt eine neue Innovation in der Welt der KI Wellen und das ist der Text zu Bild Generator DALL-E 2. Worum handelt es sich bei DALL-E 2? Wie funktioniert diese neue Technologie? Und wie kannst du sie vielleicht bald selbst für dich nutzen? Dies und noch vieles mehr erfährst du in diesem Beitrag!

Was ist DALL-E 2?

DALL-E 2 ist der neue, revolutionäre Text zu Bild Generator von OpenAI. Er ermöglicht es Nutzern, Bilder auf Basis von eingegebenen Text Prompts zu erstellen. Dieser Generator verwendet eine künstliche Intelligenz namens GPT-3, die in der Lage ist, die Bedeutung von eingegebenen Wörtern (natural language inputs) zu verstehen und sie in Bildern wiederzugeben. Durch die Verwendung dieses Generators können Nutzer ihre eigenen kreativen Ideen in lebendige Bilder verwandeln.

Dabei kann DALL-E 2 Bilder erstellen, die auf realistischen Objekten basieren oder aber auch Text Inputs interpretieren, die nicht wirklich in der Realität existieren. Möchtest du zum Beispiel eine realistische Szene generieren, dann ist dies für DALL-E 2 kein Problem:

Quelle: https://arxiv.org/abs/2204.06125

Willst du stattdessen ein Propagandaposter von Napoleon Bonaparte als Katze mit einem Stück Käse in der Hand erstellen? Dann kann dir DALL-E 2 auch hier weiterhelfen:

dalle 2 katze in napoleon uniform hält ein stück käse in hand
Quelle: https://arxiv.org/abs/2204.06125

Das faszinierende an DALL-E 2 ist, dass es sich bei diesem Text zu Bild Generator um eine relativ neue Technologie handelt, welche erst im April 2022 bekannt gegeben wurde. DALL-E 2 baut hierbei auf seinen Vorgänger DALL-E auf, welcher im Januar 2021 veröffentlicht wurde und mit dem man fotorealistische Bilder aus Text Prompts generieren kann. Deshalb ist es interessant, mehr über die Technologie hinter DALL-E 2 zu erfahren.

Wie funktioniert DALL-E 2?

Der DALL-E 2 Text zu Bild Generator nutzt natural language processing und künstliche Intelligenz, um die Informationen aus einem Text Prompt aufzunehmen und in eine Vielzahl von Bildern umzuwandeln. Dabei kann DALL-E 2 verschiedene Attribute in einem Bild wie beim Photo Editing kontrollieren. Zum Beispiel kann der Text zu Bild Generator Objekte oder künstlerische Stilrichtungen in einem Bild verändern. Aber wie schafft es DALL-E 2 dieses Bildverständnis herzustellen und umzusetzen? Die Antwort dazu ist ehrlich gesagt ziemlich kompliziert, trotzdem habe ich mich für diesen Blog Eintrag in das Thema eingelesen und werde versuchen, es so gut ich kann zu erklären.

Zuerst einmal muss die künstliche Intelligenz trainiert werden. Durch Deep Learning wird ihr beigebracht, welche Verbindungen sie herstellen muss, um das Endprodukt zu generieren. DALL-E 2 nutzt für diesen Lernprozess die bereits existierende Technologie von CLIP (Contrastive Language–Image Pre-training), die ebenfalls von OpenAI entwickelt wurde. CLIP schafft es, passende Textbeschreibungen für ein Bild zu finden, basierend auf Text-Bild Paaren im Internet. Der Prozess von DALL-E 2 besteht damit aus zwei Stufen:

dalle 2 diffusion model schema
Quelle: https://arxiv.org/abs/2204.06125

Im oberen Teil des Bildes siehst du den KI Trainingsprozess von CLIP. DALL-E 2 nutzt das CLIP Modell, um Text-Bild Paare zu kodieren und einen sogenannten Latent Code herzustellen.

Im unteren Teil des Bildes wird der zweite Schritt erklärt, wo der Text Prompt zu einem neuen Bild umgewandelt wird. Im zweiten Schritt wird der Latent Code der Text-Bild Paare genommen und durch einen sogenannten Prior geschickt. Danach wird ein Generator namens Decoder genutzt, um neue Variationen des Bildes zu erstellen, welche mit dem eingegebenen Text Prompt übereinstimmen.

Die neue Bildvariation wird also in wenigen Schritten erstellt: 

  1. Zuerst gibt man einen Text Prompt in den Text Kodierer ein. Der Text Kodierer ist durch das CLIP Modell darauf trainiert, Text-Bild Paar zu verschlüsseln. 
  2. Als Nächstes kommt ein sogenannter Prior zum Einsatz, um eine Verbindung zwischen dem CLIP Text Embedding (basierend auf dem Text Prompt) und einem CLIP Bild Embedding herzustellen, welches die Informationen aus dem Text Prompt widerspiegelt. 
  3. Schließlich wird ein Decoder genutzt, um neue Bildvariationen zu generieren, welche visuell den eingegebenen Text Prompt repräsentieren.

So lassen sich mit verschiedenen Text Inputs eine Vielzahl an unterschiedlichen Bildern erstellen:

Quelle: https://mlearning.substack.com/p/what-i-recommend?s=r

Die Technologie hinter DALL-E 2 ist durchaus kompliziert und da ich leider kein Raketenwissenschaftler oder Experte auf dem Gebiet von KI bin, ist diese Erklärung auch ziemlich vereinfacht. Tatsächlich weiß niemand so genau, wieso derartige Generatoren so gut funktionieren oder was die künstliche Intelligenz im Endeffekt lernt. Es gibt keine fundamentale Theorie für das Phänomen des Deep Learnings, die alles erklären kann. Die Networks, die von KIs genutzt werden, sind zu groß und zu kompliziert, als dass wir Menschen sie mit unserem jetztigen Wissen völlig verstehen könnten. Alles, was wir im Moment wissen, ist, dass DALL-E 2 durch Deep Learning nicht nur individuelle Objekte verstehen kann, sondern auch die Beziehung zwischen diesen Objekten.

Was ist neu bei DALL-E 2?

Wie bereits erwähnt ist der DALL-E 2 Bild zu Text Generator der Nachfolger von DALL-E. Daraus erschließt sich natürlich die Frage, was bei DALL-E 2 neu ist und was die Technologie alles leisten kann. Die Antwort darauf ist, dass DALL-E 2 viele neue Funktionen und Verbesserungen zur Verfügung stellt:

 

  • Der DALL-E 2 Bild zu Text Generator erstellt Bilder in einer höheren Qualität. DALL-E 2 basiert hierbei auf einem 3.5 Milliarden Parameter Modell und verwendet ein weiteres 1.5 Milliarden Parameter Modell, um die Auflösung der digital erstellten Bilder zu maximieren. Dabei ist DALL-E 2 auch schneller als sein Vorgänger, wenn es darum geht, Bilder zu verarbeiten. 
  • DALL-E 2 generiert realistischere Bilder. Die Bilder, die von DALL-E 2 produziert werden, sind facettenreicher und besitzen komplexere Hintergründe und realistischere Lichtverhältnisse und Reflexionen. Damit sind die Endprodukte von DALL-E 2 den Bildern des Vorgängers weit voraus, da DALL-E lediglich catoonartige Bilder erstellen konnte, die oft einen schlichten Hintergrund besaßen. 
  • Ein revolutionäres neues Feature von DALL-E 2 ist außerdem eine Funktion namens Inpainting. Mit dieser Funktion kann der DALL-E 2 Text zu Bild Generator verschiedene Photo Editing Prozesse an einem Bild vornehmen. Durch den Text Input kann der Nutzer die Änderungen bestimmen und anschließend einen spezifischen Bereich im Bild auswählen, den er editieren will. Beispielsweise kann man mit DALL-E 2 Objekte einem bestimmten Bereich des Bildes hinzufügen, wobei Schatten, Reflexionen und Texturen durch die künstliche Intelligenz bedacht werden.
dalle 2 kunstgallerie mit hund im bild
Quelle: https://openai.com/dall-e-2/
dalle 2 kunstgallerie mit hund in halle
Quelle: https://openai.com/dall-e-2/
  • Der DALL-E 2 Text zu Bild Generator hat ein besseres Verständnis von Lokalen Szenen. DALL-E 2 kann Objekte in einem Bild und deren Beziehung zueinander besser erkennen. Das Programm erkennt, warum bestimmte Pixel eine bestimmte Farbe besitzen und kann dies den Objekten des Bildes zuordnen. Zum Beispiel realisiert DALL-E 2, dass der Boden im unteren Bild Reflexionen widerspiegelt und wenn ein Objekt hinzugefügt wird, wird automatisch eine Reflexion dieses Objektes ergänzt.
dalle 2 indoor pool mit flamingos
Quelle: https://openai.com/dall-e-2/
  • DALL-E 2 hat ein besseres Verständnis von Globalen Szenen. Der Text Bild Generator versteht, was in einem Bild passiert und behält wichtige Objekte, die im Text Input angegeben werden, bei der Erstellung von neuen Variationen bei. Dies klingt vielleicht simpel und offensichtlich, aber es ist ein sehr komplexer Vorgang für eine Maschine, die im Endeffekt nur verschiedenfarbige Pixel erkennt. 
  • Mit dem DALL-E 2 Text zu Bild Generator lassen sich verschiedene Variationen eines Bildes in unterschiedlichen Stilrichtungen erstellen. DALL-E 2 ist in der Lage, Bilder in unterschiedlichen Stilrichtungen wiederzugeben. Dabei kann das generierte Bild eine impressionistische Version des Originals darstellen:
dalle 2 lamas mit sonnenbrillen auf fahrrädern
Quelle: https://openai.com/dall-e-2/
  • Oder DALL-E 2 bleibt dem Original weitestgehend treu und nimmt lediglich kleine Änderungen im Stil vor, wie zum Beispiel die Ausrichtung des Objekts:
dalle 2 gemälde von frau mit gelbem schleier
Quelle: https://openai.com/dall-e-2/
  • Schließlich kannst du bei DALL-E 2 auch ein weiteres Bild zum Original hinzufügen und die künstliche Intelligenz kombiniert die Bilder miteinander in einer neuen Variation für dich. 
  • Der DALL-E 2 Bild zu Text Generator ist präziser und kann Bildkategorien besser voneinander trennen. Während der Entwicklung von DALL-E 2 wurde festgestellt, dass der Algorithmus anfällig für fehlerhafte Zuordnungen war. Wenn das System beispielsweise mit dem Bild eines Apfels trainiert wurde, welches als Orange beschriftet war, so wurde die künstliche Intelligenz manipuliert und das Ergebnis verfälscht. Bei DALL-E 2 wurde dieses Problem jedoch behoben.

Die möglichen Nachteile des DALL-E 2 Text zu Bild Generators

Bis hierhin klingt die Technologie des DALL-E 2 Text zu Bild Generators sehr überzeugend. Trotzdem bringt eine derartige Technologie auch Nachteile mit sich und Nutzer müssen sich darauf gefasst machen, dass noch nicht alle Probleme behoben wurden:

  • Die Zuordnung physischer Attribute ist nicht immer korrekt. DALL-E 2 gelingt es nicht immer den Objekten in einem Bild die richtigen physischen Attribute zuzuordnen. Wenn du zum Beispiel ein Bild generieren willst, welches einen roten Würfel auf einem blauen Würfel darstellen soll, dann kann es passieren, dass der DALL-E 2 Text zu Bild Generator die Farben der Würfel verwechselt:
dalle 2 rote und blaue klötze
Quelle: https://arxiv.org/abs/2204.06125
  • Ein weiterer großer Nachteil, den der DALL-E 2 Text zu Bild Generator bis jetzt aufweist, ist, dass er keine verständlichen Texte in seinen Bildern generieren kann. Willst du zum Beispiel ein Schild mit dem Wort Deep Learning erstellen, dann sind das die Resultate:
dalle 2 schilder mit text
Quelle: https://arxiv.org/abs/2204.06125
  • Der DALL-E 2 Text zu Bild Generator hat des Weiteren Schwierigkeiten, Details innerhalb von komplexen Szenen zu erstellen. Will man beispielsweise ein Bild vom Times Square in New York City erstellen, so wird zwar ein passendes Bild generiert, jedoch haben die ikonischen Werbebildschirme keine erkennbaren Details:
dalle 2 new york city time square
Quelle: https://arxiv.org/abs/2204.06125
  • Ein großer Aspekt von DALL-E 2 ist, dass die künstliche Intelligenz mit Daten aus dem Internet trainiert wird. Wie wir alle wissen, ist das Internet nicht immer der beste Ort, um seine Informationen zu beziehen. Daher sind die von DALL-E 2 generierten Bilder einer gewissen Voreingenommenheit unterworfen und verbreiten teilweise Stereotypen. Will man zum Beispiel Bilder von Bauarbeitern generieren, so werden ausschließlich Bilder mit männlichen Arbeitern erstellt. Ändert man die Beschäftigung von Bauarbeiter auf Stewardess, werden nur Frauen angezeigt:
dalle 2 bauarbeiter und flugbegleiterinnen
Quelle: https://github.com/openai/dalle-2-preview/blob/main/system-card.md#restrictions
  • Diese Voreingenommenheit der künstlichen Intelligenz führt dazu, dass Inhalte eintönig oder sogar problematisch sein können. Generierte Bilder können voreingenommen gegenüber von Themen wie Nationalität, Hautfarbe, Sexualität, Geschlecht und Religion sein. Will man ein Bild von einer Hochzeit erstellen, so wird ein heteronormatives Bild einer traditionell christlichen Hochzeit mit einem weißen Ehepaar und weißen Hochzeitsgästen generiert:
dalle 2 bauarbeiter und flugbegleiterinnen
Quelle: https://github.com/openai/dalle-2-preview/blob/main/system-card.md#restrictions
  • Da DALL-E 2 noch eine relativ neuartige Technologie ist, funktioniert sie bis jetzt nur auf Englisch. Wer demnach der englischen Sprache nicht mächtig ist, wird Schwierigkeiten dabei haben, Text Prompts zu erstellen und das Programm voll auszuschöpfen.

Welche Gefahren könnten durch DALL-E 2 entstehen?

Leider ist es oft so, dass innovative Technologien wie DALL-E 2 auch einige Gefahren mit sich bringen. Vor allem der eventuelle Missbrauch der Technologie ist eine der größten Sorgen für die Entwickler, weswegen DALL-E 2 zum jetztigen Zeitpunkt keine Open Source Technologie ist und nur mit einer Einladung der Entwickler genutzt werden kann. Wir können nachvollziehen, dass du diese großartige neue Technologie so schnell wie möglich in die Hände bekommen möchtest, genauso wie wir. Doch so wie es aussieht, ist die Warteliste für den Privatverbraucher noch sehr lang:

dalle 2 warteliste nachricht

Das lange Warten hat jedoch einen Grund. Bereits existierende Technologien wie Deep Fakes haben gezeigt, dass Programme, mit denen man Bilder manipulieren kann, auch missbraucht werden können. Sie können beispielsweise dazu genutzt werden, um gefälschte Bilder zu erstellen, die anderen Leuten Schaden.

Der DALL-E 2 Text zu Bild Generator hat daher einige Sicherheitsvorkehrungen getroffen, die helfen sollen, jeglichen Missbrauch zu verhindern. Input Filter sollen Leute daran hindern, bestimmte Arten von schädlichen Inhalten zu erstellen (z.B. sexualisierte oder suggestive Bilder von Kindern, gewaltvolle Bilder, explizite politische Bilder, etc.). Alle Text Prompts, die DALL-E 2 erhält, müssen sich an strenge Richtlinien halten. Um sicher zu stellen, dass DALL-E 2 nicht missbraucht werden kann, um gewaltvolle und hasserfüllte Inhalte zu erstellen, wurden gefährlichen Waffen aus der KI Datenbank entfernt.

OpenAI hat zwar angekündigt, dass der DALL-E 2 Text zu Bild Generator irgendwann als Open Source Version für alle Nutzer zugänglich sein wird, aber die Entwickler sind sich ihrer Verantwortung bewusst. Deswegen geht OpenAI im Fall von DALL-E 2 lieber mit Vorsicht vor, bis alle Gefahren eliminiert wurden.

Wir haben DALL-E 2 ausprobiert!

neuroflash ist einer der glücklichen User, die einen Testzugang zu DALL-E 2 erhalten haben und damit bis zu fünfzig Text Prompts am Tag kostenlos generieren können. Natürlich habe ich direkt losgelegt, um die neue Technologie auf die Probe zu stellen und ich bin wirklich davon begeistert! Die Vielfalt an Bildern, die man mit DALL-E 2 generieren kann, ist erstaunlich. So kann man verschiedenste Stilrichtungen wählen und auch Kontext zu den generierten Bildern hinzufügen. Möchte man zum Beispiel ein Album Cover erstellen, dann muss man im Prompt nur „album cover art“ hinzufügen:

dalle 2 seekühe spielen trommel
Quelle: OpenAI

Eine große Frage, die mich beschäftigt hat, ist, ob man auch Bilder von bekannten Personen erstellen kann. Es ist nicht möglich, realistische Bilder von berühmten Menschen zu erstellen (aufgrund der Gefahr von Fake Bildern). DALL-E 2 kann jedoch trotzdem Bilder mit Menschen generieren, die die Charakteristiken der berühmten Person widerspiegeln, sodass eine Ähnlichkeit besteht. Hier seht ihr zum Beispiel ein Bild vom Oprah, wie sie während eines Feuers vor einem Dinosaurier flieht:

dalle 2 oprah winfrey flieht vor dinosaurier in feuer
Quelle: OpenAI

Oder hier ist ein Bild von Taylor Swift, wie sie mit einem Oktopus tanzt:

dalle 2 taylor swift tanzt mit oktopus
Quelle: OpenAI

Zudem kann man die generierten Bilder auch im Nachhinein bearbeiten, indem man einen Teil des Bildes löscht und dann das gewünschte neue Bild beschreibt. Man kann außerdem Variationen eines generieren Bildes erstellen, um noch mehr Optionen auszukosten. Jedoch ist es so, dass hierbei Details verloren gehen können. In dieser Variation des Taylor Swift Bildes, wurde der Oktopus beispielsweise ungewollt durch eine Schlange ersetzt:

dalle 2 taylor swift tanzt mit schlange
Quelle: OpenAI

Eine positive Überraschung war, dass mögliche Texte in den generierten Bildern doch genauer und fehlerfreier sind als gedacht. Solange man einfache Wörter benutzt, kann die KI diese weitestgehend korrekt generieren:

dalle 2 schilder mit marketing text
Quelle: OpenAI

Generell muss man darauf achten, dass die eingegebenen Text Prompts detailliert und genau sind. Möchte man zum Beispiel einen Boxkampf zwischen einem Pinguin und einer Robbe generieren und man gibt den Prompt „box fight“ ein, so bekommt man dieses Resultat:

dalle 2 pinguin und robbe in boxen
Quelle: OpenAI

Gibt man stattdessen den Begriff „boxing match“ ein, dann erzielt man das gewünschte Bild:

dalle 2 pinguin und robbe boxkampf
Quelle: OpenAI

Alles in allem lässt sich sagen, dass DALL-E 2 eine verblüffende neue Technologie ist, die der menschlichen Kreativität keine Grenzen setzt. Ich bin mir sicher, dass sobald DALL-E 2 veröffentlich wird, viele Menschen die Technologie auf verschiedenster Art und Weise nutzen können.

Wieso sollte man DALL-E 2 nutzen?

Natürlich bringt DALL-E 2 nicht nur Gefahren mit sich, sonder auch tolle neue Möglichkeiten! Der DALL-E 2 Text zu Bild Generator ist eine großartige neue Technologie, die auf verschiedenster Art und Weise genutzt werden kann.

Our hope is that DALL·E 2 will empower people to express themselves creatively. DALL·E 2 also helps us understand how advanced AI systems see and understand our world, which is critical to our mission of creating AI that benefits humanity.

Mit DALL-E 2 lassen sich effektiv einzigartige und kreative Bilder erstellen. Dazu brauch man keine Photo Editing Skills oder einen ausgeprägten Sinn für Kunst. Auch Kenntnisse im Bereich Photo Editing Softwares (z.B. Photoshop) sind nicht länger notwendig, um ein Bild zu bearbeiten.

Dazu kommt, dass der DALL-E 2 Text zu Bild Generator nicht nur qualitativ hochwertig arbeitet, sondern auch sehr schnell ist. In nur wenigen Minuten lassen sich neue Bilder generieren, für deren Erstellung ein Mensch eventuell Stunden gebraucht hätte. Durch die Vielfalt an Optionen sind deiner Kreativität keine Grenzen gesetzt. Im Gegenteil! DALL-E 2 wird die Kreativität der Menschen herausfordern und erweitern.

Schließlich ist der DALL-E 2 Text zu Bild Generator ein tolles Beispiel dafür, wie sich künstliche Intelligenz immer weiter entwickelt. Die Bilder, die von DALL-E 2 generiert werden, können uns in Zukunft zeigen, ob das System das menschliche Denken tatsächlich versteht oder ob es nur nachahmt, was wir ihm beibringen.

Fazit ist: Wir sind auf jeden Fall gespannt, wie sich der DALL-E 2 Text zu Bild Generator entwickeln wird und können es kaum abwarten, irgendwann selbst mit DALL-E 2 zu arbeiten! Wenn du jedoch nicht so lange warten willst, dann kannst du stattdessen die Vorzüge der KI genießen, die bereits auf dem Markt sind. So kannst du beispielsweise mit dem neuroflash Textgenerator bis zu 2,000 Wörter kostenlos von einer künstlichen Intelligenz generieren lassen und zwar in über 50 verschiedenen Textarten!

Generiere einzigartige KI Bilder mit neuroflash

Durch die Möglichkeit, Bilder aus Text zu generieren, wird das Potenzial der künstlichen Intelligenz als Ressource deutlich. Dies ist ein großartiger Fortschritt, der dank der modernen Technologie erzielt wurde. Deshalb verbindet neuroflash nun den Nr. 1 deutschsprachigen Textgenerator mit einer neuen Funktion, der Text zu Bild Generation. Damit ist neuroflash die erste Firma im DACH-Raum, die ihren Kunden die Möglichkeit bietet, KI Bildgenerierung selbst kostenlos auszuprobieren. 

Wie kannst du mit den KI-generierten Bildern von neuroflash Geld verdienen und sie für dein Unternehmen nutzen? Ganz einfach:


  • Bücher mit geringem Inhalt
  • Covers für Bücher, Lieder, Comics, E-Books, …
  • Illustrationen für Gute-Nacht-Geschichten, Bücher, Comics…
  • Print-on-Demand-Bilder oder Postkarten
  • Einfache Stockbilder für Blogs (z. B. Food-Blogs)
  • NFTs
  • Präsentationen & Foliendateien
  • Bilder für Social-Media-Posts, Newsletters
  • Inspirationen für Landingpage-Designs, Produktdesigns

Tipp: Kombiniere neuroflash mit Photoshop oder anderen Programmen:

 

  • Verwende Photoshop und vergrößere unsere Bilder mit Preserve Details 2.0 von 72 dpi auf 300 dpi.
  • In der neuesten Version von Photoshop (Beta) gibt es die Funktion „Fotowiederherstellung“ unter „Neuronale Filter“, die in der Regel verbessern sie die Darstellung denr Augen und anderen seltsamen Gesichtszügen.
  • Führe dann noch einige grundlegende Kurven- und Farbkorrekturen durch und helle die Augen ein wenig auf.
Teile diesen Beitrag
Sichere dir jetzt 2000 Wörter gratis jeden Monat.
Einfach anmelden und ausprobieren.

Erstelle Content mit neuroflash's KI. 10x schneller.

Nutze unsere KI um Texte und Bilder jeden Monat kostenlos zu generieren. Anmeldung ohne Kreditkarte.

Mehr Inhalte rund um KI & Marketing

Erlebe neuroflash in Aktion mit unserer Produkttour

KI verwandelt deine Worte zu Meisterwerken