BRAV5realisianv90V4検証【Stable Diffusion】

Stable Diffusion

Stable Diffusionで有名?なModelのBRAV5の最新(2024年7月時点)を使ってみた!

ということで、これまではKisaragiMIX推しの私でしたが、REALを追求する点で参考になる画像を見る度にBRAV、BRAVばかりだったので、私も使ってみました。

素人でも使いこなせるのか!?以下に検証状況をレポートします。

サンプラーとCFGスケールのテスト

Civitaiの本家では、CFG4が推奨。Kisaragi MIXでは6とか7を多用していたため、「えっそんなに少ない値で大丈夫?クリーチャーできない?」と不安になりました。

私のPCはMacbookProで、M3Proチップではあるが界隈では必ずしも良いとは言えないです(買った後に知った。買うまではStableDiffusionをやるとはほとんど思ってもいなかったです。こちらはいずれ別トピックで書きたいと思います(MacbookでのStableDiffusion利用、使用感など))。

ということで、低スペックマシンで長いこと錬成を待った挙句にクリーチャーが生まれると、本当に萎えます。なるべく他の作業をしながら、気を紛らわせながら錬成するのですが、初心者はそもそもで錬成経験が少ないため、どうしてもwktkしてしまいます。そんなほぼ童⚪︎状態で夢を持ち、キラキラした気持ちでエンジェルの降臨を心待ちにしている若者壮年の目の前にクリーチャーがお出まししたことを想像してみてください。

少しでも同じ体験をしないよう、まずはサンプラーとCFGスケールをXYZプロットで試してみます。

512×512で適当なプロンプト(といっても個人的に必死に吟味したもの)を入れてテスト。

手足がおかしい?もうそんなことはどうでもいいのです。敷居が高いというか、高望みというか。

人の形をしていれば及第点なのです!

気を取り直して、上記はBRAV5realisianV90V4のサンプラーとCFGスケールのテスト。

サンプリングステップ数は25です。

DPM++3M SDEと相性が良さそう。CFGは3.5かがちょうどいいかも知れません。CIVITAIだとCFG4を推奨しているが、手に光の腕輪のようなものができています。これはKisaragiMIX(これもどこかで記事にしたいと思います)でも同様のことが起きており、当時はどうやっても解決できませんでした。

StableDiffusinは多くのパラメータがあり、何がどう作用しているのか見極めるのが困難です(少なくとも私には)。したがって、今回のように地道に確認を繰り返すことがクリーチャーを見ずに、コスパよく錬成するためには重要だと思います。

また、サンプラーですが、今回3パターンでテストしています。Civitaiの本家ではUniPCを利用していましたが、テスト結果はこちらだけ、雰囲気が異なっています。個人的にはDPMシリーズのが好みなので、DPMシリーズの最新であるDPM3がベターと判断します(これは個人の好みで良いかも知れません)。

DPM++3M SDE にLoRAを加え再テスト

良いと思ったサンプラーでさらにテスト。

採用したLoRAはかの有名な?「Add_Detail」。同じプロンプトの最後に(Add_detail:1.0)を追加した状態で、CFGスケールがどうなのか、またLoRA効果はどんなもんかをテスト。(Seed値は同じものを指定)

めちゃくちゃ変わってしまった。

低スペック民からすると、LoRAは使うだけで時間が倍増するため、一発で仕留めたい

LoRA無しで被写体や構図を吟味し、「これだッッ!」と思ったところでいざLoRAなのだが、ここまで変わってしまうと「南無三…」なわけです。

くぅ〜、ショートヘアーで青いTシャツが良かったのに!、とも思いながらも、生成結果に罪はない、として受け入れることが大事です。気を取り直して、結果を評価します。

CFG4.5は傘をさしています。またTシャツにもレインボーなラインが。服のプロンプトとして(colofuly)は指定しましたが、指定していない傘が出てきたのはAI側で厳しい日差しに気を遣ってくれたのでしょうか。このようにCFG値を上げるとプロンプトの空気を読みすぎる傾向がありそうです。

こちらの意図を超えない範囲で、できるだけ詳細に反映してくれる点、BRAV5realisianv90V4のCFG値は公称通り3.5~4が良さそうです。

とはいえ、やはりLoRAを入れるとガラッと変わってしまうのと、512×512では使い物にならない点でなかなか勝手が悪いと感じざるを得ないです。

1024×1024で使い物になるか試してみた

同じ条件(プロンプト(LoRA有)、サンプラーDPM++3M SDE、CFG4.0、シード値)で、サイズだけ1024×1024に変更して錬成。

で、でたー、クリーチャー!

まだ2人と認識できるので、グロテスクなまでにはなっていませんが、危惧していた事態に。このように、初心者にはStableDiffusion君は全くいうことを聞いてくれません。過去の少ない経験を踏まえ、慎重に進めたはずなのに。なぜ!

そこからプロンプト(いわゆる「呪文」です)の調整を何度も行い試行錯誤を繰り返しました。

体が崩れているが、まぁこんなものか。一人になったものの、全く別人になってしまいました

私が欲しかったのは、

こちらの高精細な画像だったのです(再掲)!

恐らくは、i2iで地道なスケールアップ作業を行えば同じ画像のままできるでしょう。

ということで、今回のまとめです。

  • BRAV5realisianv90V4はDPM++3M SDE、CFG3.5~4.0が良い
  • LoRA(Add_Detail)を使うと同じ結果は得られない
  • StableDiffusionは人の形をしていれば及第点、多くを望まない!

今回は、StableDiffusionのModelで有名と思われるBRAV5realisianv90V4について検証してみました。ちなみに本Webサイトにおける初投稿なので、色々あとで修正すると思いますが、生暖かい目で見守って頂けると幸甚です。他の記事もおいおい公開して参ります。よろしくお願い致します。

コメント

タイトルとURLをコピーしました