Stable Diffusionで軽く遊ぶ - 映像と日常と～estwald2002のブログ

オープンソースかつ無償で利用できる、テキストから画像を生成できる「Stable Diffusion」が先月下旬に公開された。

プロンプト（通称「呪文」、現状ほぼ英語と顔文字のみ解釈する）を入力しパソコンを回せば、100枚ほど作ったうち2～3枚はイイ感じの絵が作れる。

AIやStable Diffusionの仕組みは僕にはさっぱり理解できないが、ネット上の集合知が集まって、どんな呪文を使えば理想の絵柄に近づくか、追及が続いている。

GitHubに公開されているソフトも更新が激しい。バグ取りや、できることが増えたりが続々と進められている。

とりあえず、僕がやっているのは「AUTOMATIC1111」氏の作ったWebUI版。

僕のパソコンのGPUはNVIDIA GeForce RTX3060なので、面倒なGoogle Colabではなくローカル環境を構築して実行している。
seed値によっても違うが、1枚の絵を作るのにだいたい10秒かかる。

なお、デフォルトの512×512pixelが一番安全で、無理すれば512×768も作れるものの、768×768は3060のメモリ12GBでは足りずにエラーが出る。
まあ、「Extras」タブに持っていって拡大すれば最大で4倍の画像にはなるのだが。

ともあれ、作例をいくつか。