Hraní s #stablediffusion: Vliv -n_samples, -n_iter, -ddim_steps i -scale. A samozřejmě kupa různých pokusů se zadáními.

Postavy jsou prostě peklo. Ostatně mořské panny rovněž. Na staré známé skvělé kostce se naučíme spoustu nových triků a pak se vydáme do houbičkového lesa. Na chvíli odbočíme k zkoumání obličeje. A uzavřeme to fantastickými vlaky z budoucnosti.

👒 Jo ty postavy, to je peklo

Někde jsem zahlédl „Sparklink Net Dress“, takže to zkouším s „Pretty lady in Sparkling Net Maxi Dress„. Ale to mít dobrý výsledek nemůže.

Takže spíš „A ultradetailed beautiful panting of a stylish woman in a Sparkling Net Maxi Dress sitting, by conrad roset, greg rutkowski and makoto shinkai trending on artstation„. A … ouch … má to mouchy.

„A detailed beautiful panting of a stylish woman in a Sparkling Net Dress, by conrad roset, greg rutkowski and makoto shinkai trending on artstation“ … ale ani tady to nedopadlo. Ale není divu, tohle je obtížné. A popravdě, ty výsledky jsou hodně (abstraktně) zajímavé.

Otázkou je, jestli zrovna tady to nechce podstatně vyšší scale. A ne, nepomůže to, ale výslekdy dost dobré=

🧜‍♀️ Co takhle mořská panna?

Koukal jsem do Lexica a vypadá to, že mořské panny to moc malovat neumí. A když už trochu jo, tak je tam jasný vzor Disney. Ale pojďme zkusit „Beautiful, mermaid, latina, floating under water, model, symmetrical!!, makeup, sephora, maybelline, cinematic, filmic, vsco, fantasy, concept art, artstation, elegant, ray trace, gorgeous, vray, flim, octane render, arnold render, wlop“ (upravené z něčeho jiného na Lexica, místo mermaid tam bylo woman). Výsledek tradičně katastrofa.

Zkusím ještě s vyšším (40) scale, ale taky prostě může jít o smůlu na seed. Trochu se to tedy vylepšilo, ale mutanty, ty to prostě umí. Mimochodem inspirace má seed 3725453963, scale 16 a 512×640, takže ještě schválně zkusím na výšku. Je tedy original není mermaid.

A nutno dodat, že ten formát na výšku tomu pomohl, byť mořskou pannu to dost ignoruje. Nezapomeňme, že ono je to dost loterie podle seed.

👩‍💻 Co pár dalších parametrů?

–n_samples jsem doposud všude používal jedničku, ale co když tam dám desítku? Použiju k tomu onu skvělou kostku z minila („A huge indeterminate color alien cube with a strange texture from nanotechnology, forgotten and lost in the forest, detailed digital art by greg rutkowski“) a seed 88212555 co dával fakt kostku.

–n_samples vezme základní seed a v jednom „běhu“ vygeneruje „n“ dalších co mají seed o postupně jedničku vyšší. Ušetříte tím čas, protože nepouštíte skript znovu (načítání všech dat trvá docela dost dlouho). Samozřejmě to poběží delší dobu než jeden výstup. Jo a důležité, „vyplivne“ je až všechny najednou, ne průběžně.

–n_iter je taky výchozí jednička, takže tam hoďme desítku. Opět dostanete deset obrázků, opět se seed bude zvětšovat o jedničku, ale generuje je to postupně. A i po studování dokumentace jsem ne zcela pochopil rozdíle mezi n_samples a n_iter. Ale pokud byste použili 10 a 10 tak dostanete 100 obrázků. Malá domněnka je, že n_samples se vám nemusí vejít do GPU, takže to pomocí n_iter můžete rozdělit. A musím dodat, že to generuje zcela boží věci.

No aby toho nebylo málo, tak je tu ještě –ddim_steps. Ten je ve výchozí podobě padesát. Takže pro vyzkoušení čtyři výsledky s 50 (ten dá něco co už je o kousek výše jako poslední), 100, 150, 200 a seed zůstává. Čím větší, tím déle trvá generování, btw. V mém případě 50 za 1:38, 100 za 3:27, 150 za 5:21 atd… Ale k čemu že to je? Počet kroků, průchodů, při generování – vede to porůznu k zlepšení kvality či změnám, ale mezi 50 a 100 je rozdíl minimální, tedy v tomto příkladu, ono to může u jiných zadání být jinak. –ddim_steps tak můžete použít v okamžiku kdy najdete kýžený výsledek a chcete něco čistého a kvalitního, místo 50 prostě jděte výš.

200 – 150 – 100 50 (hlídejte si strom vpravo)

A když už ty parametry, tak jen připomenu to co už jsem probíral –scale. Pro srovnání vezmeme předchozí (s ddimsteps na 50) a scale hodně velké – 250, 500, 750 a 1000

Vtip je v tom, že nesmíte scale přepálit – což je přesně to co jsem v předchozím příkladu schválně udělal. Výchozí je totiž tuším 7.5 – takže 7, 7.5, 8 a 8.5 – kde ovšem uvidíte rozdíly minimální, spíše působící jako jemné zkvalitňování, až při skoku o jedničku tam je něco jiného. Z předchozích pokusů víme, že vyšší hodnoty vedou k zásadnějším změnám.

Takže co třeba scale od 10 do 100 (s krokem 10)? Tady už je hodně vidět, jak hodně se to větším krokem mění na dost jiné věci. Připomenu že je to stále stejný seed, ale když si „vynásobíte“ seed x scale, tak množství variant je … šílené. A někde od 50 výše to asi už spíš škodí. Jo a ty obrázky jsou od 100 do 10

Hm, a co takhle 1, 2, 3, 4, 5, 6? Sedmičku už máte o kus výše. Asi je vám už jasné, že tímhle směrem vůbec nemusíte vyrážet.

🍄 Houbičkový les

Tak. „A painting of a man and a dog walking through a huge mushroom forest, a detailed matte painting by julian allen, cgsociety, fantasy art, matte painting, concept art, daz 3 d“ z Lexica odtud. Zajímavé je, že se mi ztrácí houby, ale fakt je, že to zkouším v „na šířku“ a bude to zase něco co záleží na seed. A ta šířka, jak už víme, bývá i důvod těch zdvojování.

Ověřme si ten čtverec, jen tentokrát n_samples=4 a seed začíná na 591406926, takže to nemá žádnou návaznost na předchozí čtveřici. A ano, je to víceméně pravda.

Obličej?

Půjčím si „sad woman with short, spiky black hair and dark skin, slanted amber eyes, long thin scar on her face. highly detailed, digital painting, artstation, concept art, sharp focus, beautiful face, expressive eyes, illustration, art by Artgerm and greg rutkowski and alphonse mucha“ z Lexica.

Ale ještě předtím jsem hledal, jestli moje GPU (jenom 8 GB paměti) zvládne víc než 704×704. 1024 vím že ne. 960 taky ne, 800 ještě pořád nic. 768? Ano! Jen je u toho otázka, nakolik to bude s tím zdvojováním – protože je to naučené na 256. Nebude to ztrojovat?

Ale pojďme zpět k té ženě. 768×768 a pro experiment i 704×704 a 512×512 (to byl původní obrázek, ale ten měl jiný seed, 2584893493, tady je 591406926). Je tu dobře vidět úskalí generování obličejů, ale to už víme. A taky máme odpověď, že čím větší to je, tím víc se to kazí. Nej je prostě těch 512×512. Ní že je pořadí klasicky opačně, tedy 512, 704 x 768

„sad woman with short, spiky red hair and dark skin, slanted amber eyes, highly detailed, digital painting, artstation, concept art, sharp focus, beautiful face, expressive eyes, illustration, art by Artgerm and greg rutkowski and alphonse mucha“ .. nějaké ty změny, chci, samozřejmě, rusovlásku. jizvu dáme pryč. Jak se to asi projeví? Zůstanu u 512×512

Změna na „long, red hair“

Dost dobrý, dost hodně. Ale teď zkusme dát pryč „alphonse mucha“ a potom i „greg rutkowsi“. A musím dodat, že to má dost zvláštní vývoj.

Pokračujme v ubírání. „art by artgem“ pryč. Evientně tady vliv asi nebyl až tak velký, nebo možná spíš úplně jiný než na stly.

A zkusme tam přidat „art by cindy sherman„, jen tedy je otázka, jestli to AI zná.

Ale „by Annie Leibovitz“ by znát mohl?

Asi ne, ale je otázka, jestli tam není dominantní něco jiného. Tedy to hodně určení, že jde o kresbu. Což je důvod k poslednímu pokusu „sad woman with long, red hair and dark skin, slanted amber eyes, highly detailed, sharp focus, beautiful face, expressive eyes, photographic by Annie Leibovitz„

Musím dodat, že takovýto výsledek jsem nečekal. Takže přeci jen, ještě „sad woman with long, red hair, slanted amber eyes, highly detailed, sharp focus, beautiful face, expressive eyes, photography by Annie Leibovitz“

🚅 Vlak budoucnosti

„Futuristic train, 4K, metallic colours, bright cyberpunk glow, epic surrealism, digital matte painting in the style of simon stalenhag, greg rutkowski and greg hildebrandt artstation“ … na letadlo tohle moc nefungovalo, ale místo airplane tam dám train. Kouzelný výsledek.