Retro Pixel mit ChatGPT in "Fotos" verwandeln

phoken · 4. Mai 2025 um 16:16

Hammerthread! Warum ist da noch keiner vorher drauf gekommen?

Turrican sieht bissi lame aus

Aber Midnight Resistance hat schon was

Christopher · 4. Mai 2025 um 16:32

Christopher · 4. Mai 2025 um 16:39

Aus aktuellem Anlass

insgesamt alles ein bisschen creepy

Avantenor · 4. Mai 2025 um 18:23

Da hat ChatGPT bei Nathan doch gleich mal die Ethnien vertauscht.

Ich verstehe immer nicht, warum die KI so faul ist. Es gibt dieses eine Element, meist die menschlichen Figuren, die sehen realitätsnah aus, und der ganze Rest wirkt dann irgendwie billig reingerotzt, bestes Beispiel oben die Zeitung.

Was im direkten Vergleich aber aber auch auffällt, wie wenig bei alten Artworks und Pixelgrafiken auf korrekte Beleuchtung geachtet wurde.

Aber so ganz grundsätzlich demonstriert das schon, dass wir in Zukunft noch einiges von der KI erwarten können. Vor fünf Jahren hätte das noch niemand für möglich gehalten. Mal sehen, wie es in 15 Jahren aussieht.

Christopher · 4. Mai 2025 um 19:05

Ich denke da renne ich und wir in die Begrenzungen der jeweiligen Modelle, die uns einschränken. Wenn ich auf einem starken System selbst was aufsetzte würde das sicher noch ganz anders aussehen. Ich denke mal ChatGPT zB gibt mir nicht so viel processing power wie möglich wäre ich merke auch dass es immer schlechter wird je mehr ich mache.

pommes · 4. Mai 2025 um 19:50

Oder auch Wissensbegrenzungen, durch nicht Existenz von Trainingsmaterial.
Ich war erstaunt, dass die KI Kimi als Asiatin so einwandfrei erkannt hat. Das kann man eigentlich nur an den 5 Pixeln der Augen erkennen (oder vielleicht auch bloß, weil der Name drüber stand ).
Hingegen scheinen in der Welt der KI keine Monokel zu existieren. Das ist nicht sonderlich verwunderlich. Denn Monokel kommen in der Welt des Internets nicht vor. Wenn links vor dem Auge ein Glas ist, muss rechts auch eins sein!

Hilft es vielleicht etwas, dem Prompt hinzuzufügen. Dass man Mode und Frisuren vom Anfang des 20. Jahrhunderts will?

ZeDctr · 4. Mai 2025 um 19:57

Aber die Fortschritte sind schon enorm. Die Idee, Fotos aus alten Pixelgrafiken zu machen, hatte ich schon vor etwa zwei Jahren, als ich mich zum ersten Mal mit dem Thema Bildgenerierung auseinandergesetzt habe.
Nach Versuchen mit verschiedenen Stable Diffusion Modellen und Vertiefung in das Thema ControlNet waren die Ergebnisse dann doch eher ernüchternd und ich bin wieder davon abgekommen.

Hier ein Versuch aus dem Jahre 2023 nach viel „Handarbeit“ (und das ist noch mit Abstand das beste Bild):

Die gleiche Szene heute in ChatGPT (Sora).
Dort reichte neben dem Screenshot nur noch ein einfacher Prompt:

Original

Für die Interessierten:

Beispiel Prompt für ChatGPT/Sora

Bei Sora lassen sich praktischerweise Presets hinterlegen, so dass man diese einfach auf viele Bilder anwenden kann.
Hier eines meiner Beispiel Presets, welches ich auch mit ChatGPT entwickelt habe. Da beschreibt man einfach auf Deutsch, was man von dem Prompt erwartet und ChatGPT formuliert das dann aus.

Convert the provided pixel-art image into a photorealistic image that looks exactly like a real photo taken with a high-end professional camera in the real world. Do not create a painted, stylized, or rendered look — the result must appear as an actual photograph, with natural lighting, realistic materials, and true photographic textures.

Strictly preserve the original composition, perspective, object placement, proportions, and framing. Do not add, remove, or invent any new elements — only enhance what’s already present using realistic photographic detail.

Crucially, preserve the overall color palette, mood, and lighting atmosphere of the original pixel-art image. If the original contains vibrant or stylized colors, ensure those tones are clearly reflected in the final image. Do not mute or neutralize the colors — the scene should retain its original emotional tone and visual identity.

The result should look like someone photographed a real-world version of the pixel-art scene, with accurate lighting and texture, and with the same vivid color dynamics as the source.

Christopher · 4. Mai 2025 um 20:04

Da habe ich ausgeholfen.

ZeDctr · 4. Mai 2025 um 20:06

Kleine Ergänzungen im Prompt, um die KI in die richtige Richtung zu lenken, helfen ungemein.
Was man auch machen kann, ist das Pixel Bild selbst in ChatGPT zu laden und ChatGPT zu bitten, dieses möglichst genau zu beschreiben. Die Beschreibung kann man dann bedarfsweise noch etwas anpassen.
Die Beschreibung dann komplett in das Prompt integrieren (mit dem Pixel-Bild).

ZeDctr · 4. Mai 2025 um 20:45

Das erinnert mich an dieses „Werk“:

Anmerkung zum Thema 'nur ein kurzes Prompt'

Bei diesem Bild habe ich das Standardprompt für den Stil um eine detaillierte Bildbeschreibung ergänzt, die ebenfalls von ChatGPT geschrieben wurde und auf den bekannten Informationen über die Charaktere basiert.

Convert the provided pixel-art image into an image that looks exactly like a real photo taken with a high-end camera in the real world.

Do not create a painted, stylized, or rendered look — it must look like an actual photograph, with natural lighting, realistic materials, and true photographic texture.

Strictly preserve the original composition, perspective, object placement, and proportions.

Do not invent or add any new elements — only enhance what’s already present using realistic photographic detail.

Preserve the scene’s layout and framing exactly as in the pixel-art source.

The result should appear as if someone photographed a real-world version of the pixel-art scene, without embellishment or stylization.

A horizontal character selection screen inspired by the classic 1987 video game “Maniac Mansion.” The background is deep blue with the yellow game title “Maniac Mansion” in bold, jagged lettering across the top. Red and yellow comet-like streaks fly over the title. On the far right, the word “START” appears in white, matching the game’s retro style.

At the bottom, display seven distinct character portraits, all representing teenagers aged 17 to 18, aligned from left to right. The first character is framed with a white selection box to indicate they are currently selected.

Dave – 18-year-old Caucasian male with short brown hair, neutral facial expression, wearing a blue shirt (highlighted with a white square).

Jeff – 17-year-old blonde male with black sunglasses, slightly tanned skin, relaxed and confident demeanor.

Michael – 18-year-old Black male with a short afro, warm smile, wearing a blue shirt.

Syd – 17-year-old white female with wavy dark hair and a slightly awkward expression, dressed in pink with a subtle New Wave aesthetic.

Bernard – 17-year-old pale-skinned male with messy black hair and large black horn-rimmed glasses, classic nerdy style.

Razor – 18-year-old punk rocker girl with wild red hair, green eyes, a bold and defiant look, wearing black with a hoop earring on her right ear.

Wendy – 17-year-old pale blonde male aspiring writer with a wild haircut and a dreamy, thoughtful expression, eyes semi-closed, stoner guy

The composition is clean and symmetrical, with each teenager spaced evenly along the bottom edge, resembling a retro game interface for choosing characters. The visual mood is playful and nostalgic, with vibrant colors and a hint of vintage sci-fi flair.

Fischonkel · 4. Mai 2025 um 20:57

Hat länger gedauert als ich gewollt habe, aber hier sind mal zwei Varianten - eine orientiert sich etwas stärker am originalen Cover, die andere ist realistischer / dreckiger whatever.

Ehlo · 4. Mai 2025 um 21:48

Neues Merchandise

Busnets_coach · 5. Mai 2025 um 05:37

Das empfinde ich nicht so bzw. ist mir eher andersrum aufgefallen. Am Beispiel von Frau Marley und Herrn Threepwood…

…vs. Müller und Meier…

…fällt´s mir leichter das erstgenannte Paar in der Szene zu akzeptieren. Das Licht im Gesicht ist etwas wärmer und könnte von einer Fackel oder Laterne stammen.
Bei Liesel und Jan ist es viel zu kalt und kann so nur von einer künstlichen Quelle (LED o.ä.) stammen, die dort nichts zu suchen hat. Dazu fehlt dem generierten Bild das Spitzlicht vom Mond, der außerhalb des Bildes von links oben auf die Köpfe scheint und hilft die Personen vom Hintergrund abzuheben. Darauf wurde in der Pixelgrafik aber sehr wohl geachtet.

Liegt wohlmöglich auch nur am Prompt mit dem die KI gefüttert wird, aber ähnlich wie Monokel sind im Feuerschein ausgeleuchtete Bilder im Internet halt eher selten.

Avantenor · 5. Mai 2025 um 05:51

Mein Eindruck bei dem Bild ist, dass bei einer so starken Beleuchtung von vorne der Sternenhintergrund bei einem Foto oder einer Filmaufnahme ohne Nachbearbeitung deutlich unschärfer sein müsste, auch wenn es der Ästhetik hier natürlich zuträglich ist.

Ehlo · 5. Mai 2025 um 06:50

Gerade die „realistischen“ Sachen haben eigentlich immer einen Cringe-Faktor und wirken auch sehr seelenlos. Trotzdem interessant.

Es funktioniert besser mit etwas abstraktren Artstyles wobei das Gehirn, wenn es ein paar davon gesehen hat auch sofort checkt „aha KI Ghibli Hype“.

(und in dem Fall bekommt sie nicht so ohne weiteres gecheckt was mit der Pflanze abgeht, da könnte man ggf. versuchen ob man es mit weiterenb prompts irgenwie gefixt bekommt).

dmoeller81 · 5. Mai 2025 um 07:49

Das Licht in ihren Gesichtern stammt doch von LeChuck, der gerade ein ganz passables Feuerwerk abgibt

K3nza · 5. Mai 2025 um 08:26

Geil, kurz draufgeschaut und direkt gedacht: Khelben „The Balckstaff“ Arunsun, Eye of the Beholder 2 Intro. Zugegebenermaßen liebe ich die Westwood-Pixel-Cutscenes dieser Zeit und das EotB2-Intro ist einfach sagenhaft schön. Weiß nicht, ob ich das oder das Dune 2-Intro mehr liebe.

dsta · 5. Mai 2025 um 09:24

Uhh, das ist mega cool, ich muss nachher mal Starcraft, Warcraft und Diablo reinhauen

Ehlo · 5. Mai 2025 um 10:36

Gubble 2:

Pitfall:

Elite:

Wuslon · 5. Mai 2025 um 15:52

Zwei top Spiele hast du da ausgesucht