ThinkDiffusionXL - v10
推奨パラメータ
samplers
steps
cfg
ヒント
TDXLは高い詳細と品質を必要とするプロジェクトに推奨されます。これらの領域で優れています。
このモデルは、特定のスタイルや主題を持たずに画像を生成する柔軟性があり、あらゆるスタイルや主題に適しています。
ThinkDiffusionXL (TDXL)
ThinkDiffusionXLは、素晴らしいフォトリアリズムを実現できるだけでなく、さまざまなスタイルやテーマで高品質な画像を生成することができる、多用途のモデルを構築するという私たちの目標から生まれました。プロンプティングの天才でなくても、あらゆるスタイルの画像生成が可能です。
作業
データソース: TDXLは、フォトリアリズム、デジタルアート、アニメなど、1万種類以上の多様な画像で訓練されています。私たちのデータセットで最小の解像度は1365x2048で、最大で4622x6753の解像度に達する画像も多数あります。全体のデータセット容量は42GBです。
トレーニング: 180万ステップを使用して作業しています。比較として、Juggernautは60万ステップ、RealVisXLは34.8万ステップです。
手動キャプション画像: 各画像は手動で詳細にキャプションされ、最小限のプロンプトから正確で高品質な結果を生成するモデルの能力を高めています。
NSFWの機能: モデルには、1,000枚以上の洗練されたNSFW画像が含まれています。
我々の考え
詳細と品質: 現実的なカテゴリのほとんどのXLモデルは、詳細が不十分で、特に背景や基本的な目、歯、肌などの特徴が低品質です。私たちはTDXLがこれらの分野で優れていると考えています。それは大規模かつ高品質なデータセットのおかげです。比較すると、Juggernautは画像素材の約半分、RealVisXLは1,700枚しかありません。結局のところ、TDXLははるかに多くの「知識」を持っています。
バイアスの少なさ: 各スタイルや性別などで等しい数の画像を使用したことを確認しました。過去数ヶ月間にテストした他のモデルは、何かしらのバイアスを持っていました。時には、ポートレートショットへのバイアス、性別バイアス、特定のエスニシティなどが見られたこともあります。例えば、Juggernautはクローズアップエリアにバイアスがあり、シネマティックライトがかなり支配的です。RealVisXLもポートレートショットへのバイアスがあります。一方、TDXLは求めるものを提供します。ランドスケープ、ミッドショット、フルボディ、クローズアップ、ポートレート、サイドビュー、バックビュー、アクションショット、シネマティック...。偏向されることなく望むものを得ることができます。
多用途のベース: 大規模かつバランスの取れた高品質のデータセットのおかげで、TDXLは将来のトレーニングの基盤モデルとして利用できる多用途性があります。完全に異なる方向で新しいファインチューンを作成したり、LoRAを追加して欠けている概念を補完したり、よりバランスの取れた高品質なデータを使用して追加トレーニングを行ったりすることができます。
モデル詳細
ディスカッション
コメントを残すには log in してください。