Tutorial und Vergleich der KI-Bilderzeugung: Dall-e VS Stable Diffusion VS Canva (Text zu Bild)

Mit der aktuellen Medienpopularität von ChatGPT Dies ist eine Gelegenheit, darüber zu sprechen DALL-E , eine weitere künstliche Intelligenz, die ebenfalls von entwickelt wurde AI öffnen ! Und ganz allgemein bilderzeugende KIs. Während ChatGPT in der Lage ist, geschriebenen Text mit beunruhigender Leichtigkeit zu generieren, wurden DALL-E und seinesgleichen darauf trainiert, Bilder aus einer einfachen schriftlichen Anfrage des Benutzers zu erstellen.

Werfen wir einen Blick auf ihre Funktionsweise, ihre Fähigkeiten, aber auch ihre Grenzen mit diesem Vergleichsartikel über bilderzeugende KIs.

Aber übrigens, wie funktioniert eine KI?

Eine sehr gute Frage, auf die es interessant sein könnte, schnell darauf zurückzukommen, zumal wir sie in unserem vorherigen Artikel über ChatGPT nicht angesprochen haben. Wenn Sie „Künstliche Intelligenz“ hören, ist es schwer, nicht an diese Art von humanoiden Robotern zu denken, wie wir sie in den Filmen gesehen haben. Dieses generieren die KIs selbst, wenn sie nach einem Bild gefragt werden, das der Suche nach diesen Schlüsselwörtern entspricht, wie beispielsweise das Eingangsbild dieses Artikels.

Diese Landschaft existiert nicht, sie ist zu 100% künstlich von einer KI generiert

Doch in Wirklichkeit haben viele der bestehenden KIs keine physische Hülle. In der Tat sind es meistens Computerprogramme, die auf bestimmten Algorithmen basieren, die von Menschen trainiert wurden, um bestimmte mehr oder weniger komplexe Aufgaben auszuführen.

Die Bilderzeugung ist eine Aufgabe, die einer (oder mehreren) KIs zugewiesen werden kann! Um mehr über die Methoden zum Erstellen von Bildern durch KI zu erfahren, zögern Sie nicht, sich das folgende Video anzusehen:

Lassen Sie uns unsere ersten Bilder mit künstlicher Intelligenz generieren

Dazu könnte auf den ersten Blick nichts einfacher sein, da Sie der KI lediglich das Bild, das Sie erhalten möchten, textuell beschreiben müssen. Für diesen Artikel haben wir uns entschieden, die Bilder von drei KI-Generatoren zu vergleichen:

  • DALL-E
  • Stable Diffusion
  • Canva (Text zu Bild)

Natürlich gibt es auch andere, die Sie unbedingt testen sollten. Hier ist eine nicht erschöpfende Liste.

Wenn Sie ein wenig kreativ sind, werden Sie sicher viele Ideen für Bilder finden, die Sie erstellen können. Aber für diejenigen, für die es etwas komplexer wäre, ist es möglich, ChatGPT um ein wenig Hilfe zu bitten. Ja, wir haben eine KI benutzt, um eine andere KI zu benutzen …

Antwort von ChatGPT auf die Frage: Ich muss einen Artikel auf dall.e schreiben, haben Sie eine Idee für Bilder, die mit diesem KI-Modell generiert werden können?

Als Bilderzeugungsmodell kann DALL-E natürlich eine Vielzahl von Bildern erstellen. Hier sind einige Ideen für Bilder, die Sie mit DALL-E generieren könnten:

  1. Fantasietiere: Bitten Sie DALL-E, Bilder von imaginären Tieren zu erstellen, wie einen Drachen mit Schmetterlingsflügeln oder eine Schlange mit Beinen.
  2. Seltsame Lebensmittel: Bitten Sie DALL-E, Bilder von ungewöhnlichen Lebensmitteln zu erstellen, wie z. B. eine Schokoladenpizza oder einen Burger mit Wassermelonenscheiben.
  3. Ungewöhnliche Kleidung: Bitten Sie DALL-E, Bilder von ungewöhnlicher Kleidung zu erstellen, z. B. einen Eiffelturm-förmigen Hut oder Schuhe mit Flügeln.
  4. Imaginäre Landschaften: Bitten Sie DALL-E, Bilder von Fantasielandschaften zu erstellen, z. B. eine in den Wolken schwebende Stadt oder einen Wald aus riesigen Pilzen.
  5. Hybridobjekte: Bitten Sie DALL-E, Bilder von Objekten zu erstellen, die eine Mischung aus zwei verschiedenen Dingen sind, wie ein Bett, das wie eine Hängematte aussieht, oder ein Auto mit Vogelflügeln.
  6. Berühmtheitsporträts: Bitten Sie DALL-E, Bilder von Berühmtheitsporträts zu erstellen, die nicht existieren, wie z. B. eine alternative Version von Marilyn Monroe mit Tätowierungen.
  7. Futuristische Autos: Bitten Sie DALL-E, Bilder von futuristischen Autos zu erstellen, z. B. ein Auto, das sich in ein Flugzeug verwandeln kann, oder ein Auto, das fliegen kann.
  8. Fantasiearchitektur: Bitten Sie DALL-E, Bilder von Fantasiearchitekturen zu erstellen, z. B. einen drachenförmigen Wolkenkratzer oder ein Haus, das wie ein Baum aussieht.

Diese Ideen sind nur Vorschläge, um Ihnen eine Vorstellung davon zu geben, was DALL-E leisten kann. Es gibt Tausende anderer Bildideen, die Sie mit dieser KI-Vorlage generieren könnten.

Jede KI hat ihren eigenen Stil

Lassen Sie uns anhand dieser Liste gemeinsam sehen, wie wir unsere Bilder generieren und welche der verschiedenen ausgewählten Softwares am besten funktioniert.

Lesen Sie auch:  Migration zu einem neuen forum phpBB 2.0.x zu phpBB 3.1!

Für unser erstes Bild haben wir uns entschieden, den Drachen mit Schmetterlingsflügeln darzustellen. Um etwas Kontext hinzuzufügen, bitten wir auch darum, dass dies in „einem märchenhaften Fantasiewald“ dargestellt wird. Abhängig von den IAs kann die Sprache der Anfrage das Ergebnis beeinflussen. Also haben wir das schnell für DALL-E und Stable Diffusion gefunden Englisch war die Sprache, die die besten Ergebnisse lieferte. Umgekehrt funktioniert die Text-zu-Bild-Anwendung von Canva im Allgemeinen besser auf Französisch.

1. DALL-E erzeugte Bilder eines Drachens mit Schmetterlingsflügeln

2. Drachen, die durch Stable Diffusion erzeugt werden

3. Und schließlich diejenige, die wir für das Canva-Tool beibehalten haben

Das erste, was wir sehr schnell sehen: Für die gleiche Anfrage hat jede KI ihren eigenen Stil!

  • DALL-E hat eine "phantasievolle" Seite, obwohl der "Märchenwald" für Feen etwas dunkel ist, sind die Schmetterlingsflügel gut dargestellt und ordentlich. Es hat Stil Digitale Kunst.
  • Bei Stable Diffusion ist der Stil eher "fröhlich", ein bisschen kindisch. Wir stellen uns diese Bilder sehr gut vor, die eine Geschichte für Kinder illustrieren. Hier sind die Drachen gut sichtbar und erinnern an China, dessen Wahrzeichen er ist. Andererseits verdeckte die KI die Schmetterlingsflügel komplett und wählte die einfache Lösung, indem sie neben unseren Drachen echte Schmetterlinge erscheinen ließ.
  • Schließlich haben wir für das Canva-Tool aus der Auswahl das einzige Bild ausgewählt, das unserer Anfrage entspricht. Allerdings sind hier die beiden Elemente (Drache und Flügel) vorhanden. Während alle Bilder dem Thema entsprechen und umsetzbar sind, ist Canva am besten darin, die Anfrage gewissenhaft auszuführen, und verdient daher hier einen ersten Punkt.

Welche künstlerischen Stilmöglichkeiten hat das gewünschte Bild?

Wenn keine Details zum Kunststil abgefragt werden, werden die KIs diese für Sie auswählen, wie im Beispiel der Drachen.

Dennoch ist es beispielsweise auf Dall-e möglich, die folgenden Stile zu definieren:

  • Ölgemälde : Dall-e kann Ölgemälde aus einer Beschreibung der Farben und Texturen erstellen, die Sie im Gemälde sehen möchten.
  • Fotografie : Dall-e kann Fotos basierend auf den Farben, Texturen und Details erstellen, die Sie auf dem Foto sehen möchten.
  • Digitale Kunst : Dall-e kann digitale Grafiken aus einer vorgefertigten Vorlage oder aus einer Beschreibung der Farben und Details erstellen, die Sie in der Grafik sehen möchten.
  • Abstrakte Kunst : Dall-e kann abstrakte Werke erstellen, die auf den Bewegungen, Farben und Formen basieren, die Sie in der Arbeit sehen möchten.
  • Zeichnung : Dall-e kann Designs basierend auf den Farben und Formen erstellen, die Sie im Design sehen möchten.
  • Vektorgrafiken : Dall-e kann Vektorbilder aus einer vordefinierten Vorlage oder aus einer Beschreibung der Farben und Details generieren, die Sie im Bild sehen möchten.

Die Beispiele von Dragon wurden a priori im Digital Art-Stil erstellt. Der Stil wird das endgültig erzeugte Bild stark beeinflussen.

Noch stärker ist es möglich, Stile anzufordern irgendein berühmter Künstler. Also haben wir einen Chat im Stil generiert Picasso, Van Gogh und Dali ! Und die Ergebnisse sind … ziemlich umwerfend!

Unsere KI-gezeichnete Katze im Stil von 3 großen Malmeistern

  1. Katze im Picasso-Stil
  2. Katze im Van-Gogh-Stil
  3. Katze im Dali-Stil

Besser, wir fragten dann nach einem „ Katze im Stil von Picasso und Dali und Van Gogh und wir haben das bekommen:

Wir haben auch angefragt "Schwein im Picasso-Stil" und das Ergebnis war genauso beeindruckend, wenn nicht noch beeindruckender…

KIs dürften (werden) den Bereich Kunst und Internet in den kommenden Jahren revolutionieren, was bei spekulativen NFTs bereits der Fall ist.

Lesen Sie auch:  Res Legal: Rechts Daten und Strom aus erneuerbaren Energien in Europa

Wir verstehen die Misstrauen gegenüber Fachleuten der Kunst gegenüber diesen künstlerischen KIs, ihre Ängste sind die gleichen wie die des Verlagswesens und des literarischen Schaffens gegenüber Chatbots wie ChatGPT! Sie haben Recht, all diese Befürchtungen sind unserer Meinung nach berechtigt!

Welche unterschiedlichen Methoden gibt es, um die Erstellung eines Images mit Dall-e anzufordern?

Mehrere Methoden können verwendet werden, um die Erstellung eines Bildes mit Dalle-e anzuzeigen, einschließlich grafischer Methoden für ein schnelleres Ergebnis entsprechend Ihren Anforderungen:

  • Generieren von Bildern aus Schlüsselwörtern : Sie können ein Schlüsselwort eingeben und Dall-e erstellt ein Bild basierend auf den eingegebenen Schlüsselwörtern.
  • Bilder aus Sätzen generieren : Sie können einen vollständigen Satz eingeben und Dall-e erstellt ein Bild basierend auf dem eingegebenen Satz.
  • Generieren von Bildern aus Bildbeschreibungen : Dall-e kann Bilder aus einer detaillierten Beschreibung der Farben, Formen und Objekte generieren, die Sie im Bild sehen möchten.
  • Generieren von Bildern aus Szenen : Dall-e kann 3D-Bilder aus einer vollständigen Beschreibung einer Szene generieren.
  • Bilder aus Mustern generieren : Dall-e kann Bilder aus von Ihnen eingegebenen Mustern generieren.
  • Generieren von Bildern aus Vorlagen : Sie können Dall-e eine vordefinierte Vorlage zur Verfügung stellen und es erstellt Bilder basierend auf der von Ihnen bereitgestellten Vorlage.
  • Generierung von Bildern aus animierten Sequenzen : Dall-e kann animierte Sequenzen aus der Beschreibung von Bewegungen, Farben und Geräuschen generieren, die Sie in der Sequenz sehen möchten.

Realistische, aber unwahrscheinliche Bilder

Wir haben dann unsere KI-Bildgeneratoren gebeten, uns zu zeichnen ein Salat mit Augen : zwei Elemente, die auf den ersten Blick nicht zusammenpassen. Doch auf dieser Etappe kamen unsere 3 Generatoren ohne erkennbare Schwierigkeiten durch.

1. Die vier Bilder eines Salats mit Augen, vorgeschlagen von DALL-E

2. Die beiden Bilder, die unserer Anfrage entsprechen und von Stable Diffusion generiert wurden

3. Und die beiden entsprechenden Bilder für das Canva-Tool

Auch hier hat jedes Bild seinen eigenen Stil, aber was besonders auffällt, ist der Realismus der verschiedenen Bilder: Die KIs haben den fotografischen Stil verwendet.

Wir erkennen Lebensmittel besonders gut, bis zu dem Punkt, dass wir vielleicht die verschiedenen Ideen, die in der Küche vorgeschlagen werden, reproduzieren möchten. Wenn sich Canva durch seine Originalität auszeichnet, indem es dennoch ein Bild mit „Emoticon“-Inspirationen anbietet, ist es hier DALL-E, das mit vier verschiedenen Bildern und allen im gewünschten Thema den Punkt gewinnt.

Unter den Flops von Stable Diffusion lohnt es sich immer noch, auf eines der Bilder zurückzukommen

In der Tat, auf diesem Bild, das eliminiert wurde, weil es keine Augen enthält, sehen wir andererseits die Bemühung um Realismus der KI bei der Darstellung des Arbeitsplans.

Unsere KIs sind tatsächlich in der Lage, das Wort „Salat“ mit der entsprechenden Umgebung zu verknüpfen. Auf den obigen Bildern war dies bereits der Fall die Darstellung von Tellern, Gabeln und andere Elemente im Zusammenhang mit dem kulinarischen Bereich.

Flops, die immer noch regelmäßig bleiben

Trotz ihrer allgemeinen Effizienz erzeugen unsere KIs immer noch eine gute Menge mittelmäßige, fehlerhafte Bilder sieht völlig aus dem Tritt mit der Nachfrage. Bei unserem war dies der Fall Hut in Form eines Eiffelturms.

DALL-E gewinnt den Punkt mit seinem einzigen Bild, das unserer Anfrage nahe kommt: ein weißer Hut, überragt von einem Miniaturturm, den wir uns perfekt vorstellen würden Leiterin von Geneviève de Fontenay !

Abgesehen von diesem kleinen Kichern, das die KI von Open AI bietet, waren die anderen Bilder entweder zu realistisch und stellten einfach eines der Elemente dar, während sie das andere verdeckten:

Auf dem ersten Bild stellt Stable Diffusion den Tower dar, während DALL-E auf dem zweiten sich dafür entschieden hat, uns einen Stapel Hüte zu schicken, was auch den zweiten Teil unserer Anfrage verdeckt.

Entweder haben sie die Anfrage falsch verstanden, wie in diesen beiden Bildern, in denen DALL-E eher Souvenirfiguren des Eiffelturms darstellt:

Lesen Sie auch:  Ma-Bonne-Action.com, Solidarität Marketing, humanitären und karitativen

Schließlich sind einige Bilder manchmal völlig unkonventionell, wie es bei diesem Bild der Fall war, das eine "Person aus der Vorstellung von IA Stable Diffusion" darstellen sollte, die sich dann entschied, spontan ein Zitat in einer unbekannten Sprache hinzuzufügen ... nah am Englischen ...

Eine Sensibilität, die manchmal Wort für Wort variiert

Durch die Durchführung der Tests stellen wir schnell fest, dass es manchmal ausreicht, dass unsere KI bei unbefriedigenden Ergebnissen die Situation korrigiert. Wenn wir also unsere KI zum ersten Mal fragen „eine schwimmende Stadt in einem bewölkten Himmel“, indem wir für jedes von ihnen das beste Bild auswählen, erhalten wir das folgende Ergebnis:

Jeweils von oben nach unten die Ergebnisse von Stable Diffusion, DALL-E und Canva

Sehr schöne Bilder, die aber nicht wirklich die "unwirkliche" Konnotation unserer Bitte widerspiegeln, die von Menschen verstanden wird, aber anscheinend nicht von unseren Generatoren. Alles, was es braucht, ist eine subtile Änderung der Nachfrage, um völlig andere Ergebnisse zu erzielen.

Also mit dem Satz "eine fantastische Stadt, die in einem wolkigen Himmel schwebt" bekommen wir diesmal:

1. Viel fantasievollere Bilder von DALL-E

2. Sehr hübsche fantastische Städte aus Stable Diffusion, die jedoch den Teil „In einem bewölkten Himmel schweben“ komplett weglassen

3. Einige Szenen, die aus einem Videospiel (Minecraft oder Lego Worlds zum Beispiel) von Canva stammen könnten

Hier können wir einen Punkt für DALL-E und Canva vergeben, die es beide durch die ein oder andere unserer Anfragen geschafft haben, unsere Stadt in den Wolken schweben zu lassen.

Aber welche Zukunft für die Generierung von Bildern?

Angesichts einer insgesamt recht gut funktionierenden Lösung fragt man sich, welche zukünftigen Einsatzmöglichkeiten die Generierung von Bildern durch künstliche Intelligenz haben könnte. Natürlich ist es verlockend, hier die Entstehung von Fehlern im Internet zu zitieren, zögern Sie nicht, zu kommen Post auf unserem forum denen Sie vielleicht schon online begegnet sind.

Aber wir können uns auch ernsthaftere Anwendungen vorstellen. Daher könnten die Ergebnisse, die man erhält, wenn man das Canva-Tool auffordert, ein Bild eines „Baums zu erstellen, der tatsächlich ein Haus ist“, einem Architekten, der für die Schaffung von Lebensräumen verantwortlich ist, die sich in die Natur einfügen können, leicht Ideen geben!

Aber welcher unserer 3 Bildgeneratoren schneidet dann am besten ab?

Für den Baum, der auch ein Haus wäre, geben wir einfach jedem Werkzeug einen Punkt!

Beispiele für Bilder, die jeweils von DALL-E, Stable Diffusion und dem Canva-Tool vorgeschlagen wurden

Das Auto mit Vogelflügeln hatte alle unsere KIs herausgefordert, aber das Auto, das fliegen kann, ermöglichte es Canva und Stable Diffusion, sich mit einigen ziemlich realistischen futuristischen Renderings abzuheben:

Jeweils Stable Diffusion oben und Canva unten.

Schließlich hat sich DALL-E mit seinen als recht effizient erwiesen drachenförmiges Gebäude (das allerdings noch im Aufbau ist) und Canva konnte den Wunsch nach einem Porträt, das wir etwas abgewandelt hatten, am besten erfüllen, indem wir den Promi durch „eine Person aus der Vorstellung der KI“ ersetzten.

Trotz einiger Elemente, die auf die Bilderzeugung hinter den beiden Canva-Porträts hindeuten, ist der Realismus dennoch auffallend.

In der Endabrechnung stehen diese daher DALL-E und Canvas Tool, die jeweils 5 Punkte gewinnen.

Sie sind im Allgemeinen in der Lage, Ergebnisse zu liefern, die den meisten Benutzeranfragen entsprechen.

Canva zeichnet sich durch seinen Realismus aus, während DALL-E relevanter erscheint, sobald die Anfrage Fantasie oder den Bereich der Malerei erfordert.

Trotz nur 2 Punkten versagt Stable Diffusion jedoch nicht in der Bildqualität, die es zu liefern vermag! Die Kehrseite liegt in seinem Verständnis für Nutzerwünsche, da er oft sehr bodenständig bleibt. Es bleibt jedoch auch sehr interessant zu entdecken.

Jedenfalls können wir in den kommenden Jahren damit rechnen, dass künstliche Intelligenz viele Tätigkeitsbereiche revolutionieren wird. Und sicherlich schneller als manch einer da denkt Bücher, die ganz oder teilweise von KIs geschrieben wurden, sind bereits bei Amazon erhältlich …Dieser kurze Videobericht von BFMTV sprach vor ein paar Tagen darüber:

Für Anmerkungen oder Fragen besuchen Sie das Thema der forum der KI gewidmet.

Hinterlassen Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *