Hraní s #stablediffusion: Upscaling, něco nového ve výzbroji. A naučíte se využívat další parametr, sample

A taky mohu generovat větší obrázky přímo (a upscale na 4x tolik, když to projde). Vrátíme se i k vlivu Guidance a zjistíme, že občas i jednoduchý prompt dává překvapivé věci. Nebude chybět má oblíbená Cara Delevingne a zkoumání portrétu

Co když vygeneruju „Ahri, league of legends, fantasy, portrait, highly detailed, digital painting, trending on artstation, concept art, sharp focus, illustration, art by artgerm and greg rutkowski and magali villeneuve“ (Lexika zdroj) v 256×256

A přes upscale (to je další schopnost AI) to vyženu na 1024×1024?

A přímo 1024×1024 (ano, můžu generovat větší než doposud), které pochopitelně dá něco zcela jiného.

Lexika to tam má 512×512 a guidance scale 7. Takže jen pro srovnání totéž, ze zvědavosti, protože výše je to dost jiné (vše výše i to následující má seed 3341513905 ze vzoru). Výše je navíc jen aktivní „Fix incorrect faces and eyes“ s pomocí GFPGAN. Mimochodem to scale na 7 dá lepší výsledek než defaultní 7.5.

❓ Guidance

Guidance kouzlo mne přivedlo zpět k „woman with red high heels, long legs, blue dress, red_hair, full body shot, wide angle, sharp focus, 8 k high definition, insanely detailed, intricate, elegant, art by artgerm“. Hrál jsem si s tím v minulosti a moc to tedy nefungovalo. Ale co to zkusit se snižováním Guidance? A nechat 512×512.

Tak jedeme … 7

A 6.5

6 je zhruba to samé. Takže 5.5, které má 3 stejné, čtvrtý se zdvojuje. Ještě 5 je na tom podobně.

A pro vyzkoušení 256×256 s 7.5. Nakonec by to šlo upscale na 1024×1024 🙂 Ale je to tedy poměrně děsivé. A ani po různých pokusech se scale to nevedlo k ničemu použitelnému.

❗ Jeden dost krátký prompt

„Photo of sailer moon, by greg rutkowski“ zní jako by snad neměl stačit, ale v Lexice je tam dost dobrý výsledek (s 668382058 seed, ale ten jsem nepoužil). A jedu 1024×512, tam 512×640. A i tak je výsledek hodně zajímavý.

Něco jiného je ale čas vyzkoušet. Sampler je možné volit od výchozího plms na několik dalších. Takže si je pojďme otestovat právě na tomto promptu. Ono to totiž může dávat dost rozdílné výsledky, byť jak uvidíte, některé se liší méně, některé více. Také se liší dobou běhu, mnohdy i výrazně.

Sampler: ddim (všimněte levé ruky, například)

Sampler: heun (nechávám) vygenerovat jen ten větší obrázek)

Sampler: euler

Sampler: euler_a (jako ano, vážně, je to pořád to samé seed!)

Sampler: dpm2

Sampler: dpm2a

Sampler: lms

To je komplet přehled. Takže už jenom 1024×1024 (pro Instagram) s euler_a (chtěl jsem jen ty lodě). Ale nedostal jsem co jsem chtěl 🙂

Tak je návrat k výchozímu plms sampleru. Je poněkud rychlejší. Ale co dostanu? To je loterie. Jo. Je.

👩 Zpět k portrétu

„Portrait of a woman by greg rutkowski, she is about 30 years old, pretty, blond hair with two strans around her face, slavic features, melancholic gaze, pretty aquiline nose, she is wearing a blue utilitarian jumpsuit, highly detailed portrait, digital painting, artstation, concept art, smooth, sharp foccus ilustration, artstation hq.“ na Lexice je řada nádherných portrétů (512×512, guidance 7, seed 4075743859). Já to zkusím s 7.5 a 3341513908.

A ještě pro zkoumání guidance tu původní, tedy 7.

A také původní seed. 4075743859. Ten obrovský rozdíl …

Takže si to dejme ještě jako 1024×1024. Mimochodem je to pro ty čtyři kousky na 10 minut generování. A ukazuje to na úskali s množením.

🎞 Carnival Row a Cara Delevingne

„Cara Delevingne as fairy from carnival row, flying in forest, digital painting, artstation, concept art, smooth, sharp foccus ilustration, artstation hq“ vychází dost věrně jako Cara, jen se to nedrží toho zbytku.