画像生成技術は、小売業や消費財メーカーに大きなメリットをもたらします。 生成モデルを使用することで、ユーザーのプロンプトから様式的な画像とフォトリアリスティックな画像の両方を生成することができ、マーケティング担当者やデザイナー、製品開発チームは、新しいアイデアやデザインを迅速かつ効果的に検討することができます。 このAI技術を使用するための主な要件は、ユーザーがコンセプトを明確に表現する能力です。 共通の目標に集中する個人からなる小さなチームは、AIにプロンプトを渡すことで、アイデアを評価したり、新しいアイデアを閃いたりするのに役立つビジュアライゼーションを生成できます。 このような技術によって促進されるプロセスでは、チームは先行投資コストを削減し、フィードバックまでの時間を短縮し、最終的には、新しい、革新的で差別化されたコンテンツやデザインコンセプトにつながる、より創造的なプロセスに従事することができます。
しかし、大量の一般的な画像で事前に訓練されたモデルを使用することは、あるまとまった画像を作成するのに適していますが、ほとんどの組織では、特定のブランドやドメインに固有のパターンやデザイン、美学を模倣したいと思っています。 そういった要素を理解するためにモデルを微調整(ファインチューニング)することは、組織のニーズにより合致したアウトプットを生み出すのに役立ちます。 このブログでは、このような方法でモデルを調整する方法の核となるコンセプトをご紹介します。
カスタムイメージによるモデルの微調整
ブランドやドメインの知識を反映させるためにモデルをどのように微調整するかを説明するために、家具デザイナーが新しい椅子のデザインを考えたいというシナリオを想像してみましょう。 このシナリオでは、インターネットから収集した大量の画像でトレーニングされた、Stable Diffusion XLのような定評のある画像生成モデルを、デザイナーが選択している可能性があります。
このモデルは様々な画像を作り出すことができますが、デザイナーは、過去に製作した椅子についての理解を深めたいと思うかもしれません。 過去に制作した椅子に関する知識は、画像生成モデルがブランドの一般的な方向性に沿った画像を生み出すのに役立つことから、顧客と特定のデザイン感覚を確立しようとする同社にとっては非常に重要です。
これを可能にするため、デザイナーはチームに主要製品の写真を撮らせます。 各アイテムをさまざまな角度からキャプチャすることで、さまざまな構成でアイテムがどのようにレンダリングされるべきかをモデルが知ることができます。 しかし、ここで重要なのは、デザイナーがすでにStable Diffusionモデルに焼き込まれている一般的な知識をベースにしているため、圧倒的な数の画像が必要ないということです。
それぞれの椅子のスタイルに関連する画像には、説明が記載されています。 各説明文には、写真の被写体である各アイテムの固有の名前(トークン)が含まれています。 このトークンは、モデルが画像内の特定のアイテムを識別するだけでなく、この画像が、トレーニングされた他の画像とどのように異なるかを学習するのに役立ちます。 残りの説明は、モデルが他の画像に対する事前のトレーニングで既に蓄積した知識を妨げないように、簡潔なものに します。
椅子 | トークン | 説明 |
---|---|---|
BCNCHAR | BCNCHARチェアを横から撮った写真。 | |
EMSLNG | EMSLNGチェアを正面から撮影。 | |
HSMNCHR | HSMNCHRチェアを横から撮った写真。 | |
EMSRCK | EMSRCKチェアを横から撮影。 | |
NRMCHR | NRMCHRチェアを正面から撮影。 |
図2.サンプル家具デザイン会社が選んだ5脚の椅子の説明
画像生成モデルの微調整のためのDreamBoothフレームワークを使用して、既製のStability Diffusion XL モデルを微調整します。 出来上がったモデルは再利用のために保存され、デザイナーとそのチームにより適したアウトプットを生成できるようになりました。 (図 3)
オリジナルStable Diffusion XL | 微調整されたStable Diffusion XL |
---|---|
図3.オリジナルのStability Diffusion XLモデルの出力画像と、図1の画像で微調整したモデルの出力画像。"ブラウンレザー(EMSLNG)の椅子の写真。"
このモデルを武器に、デザインチームは製品の新たなバリエーションを模索し(図4)、ポートフォリオに含まれる既製品のデザインを反映させたまったく新しいアイテムを生み出すこともできるようになりました(図5)。
Databricksによるモデルのカスタマイズの有効化
画像生成モデルの微調整は、新しいアイデアやデザインを探求するための強力なツールを組織に提供します。 しかし、このような能力を提供するためには、生成的なAIモデルを独自の情報資産と統合し、モデルの微調整という重い計算作業を実行し、幅広いユーザーアプリケーションとの統合をサポートする方法で更新されたモデルを展開できなければなりません。 これらの機能はすべて、Databricksデータインテリジェンスプラットフォームを通じて利用できます。
Databricksを使用することで、組織は構造化・非構造化の両方の情報資産を保存、処理、照会することができます。 一元化されたデータガバナンスレイヤーの背後で管理されるこのデータは、レポート利用者、アナリスト、データサイエンティストに公開され、一貫した管理を維持しながら、最も幅広い利用を可能にします。 弾力的なスケーラビリティと最新のGPUアーキテクチャのサポートにより、高性能なワークロードを効率的に拡張し、このデータ上で動作する重要なワークロードをタイムリーに処理できるようにします。 オープンなプラットフォームとして、組織はオープンソースとプロプライエタリモデ ルの両方を活用して、この技術を実現することができます。
ビルトインのモデル管理機能を使用することで、既製のモデルやカスタマイズされたモデルを取り込み、評価し、本番デプロイに移行することができます。 これらのモデルは、ネイティブのモデルサービング機能を通じて、最新のアプリケーションやユーザーインターフェース技術で広くサポートされているオープンでセキュアなインターフェースを使用して公開することができます。 Databricksデータインテリジェンスプラットフォームを使用すると、情報資産を差別化できる能力に変えるプロセスが大幅にシンプル化されるため、多くの組織がデータとAIのニーズを満たすためにこのプラットフォームを採用しています。
Databricksを使用して画像生成モデルを微調整し、上記のようなブランドに沿った画像を提供する方法をご覧になりたいですか? 最新のソリューションアクセラレーターをご覧ください。 無料でアクセスできるノートブックでは、既製のモデルをあなたのニーズに合わせてカスタマイズされたソリューションに変えるエンドツーエンドのプロセスを、ステップバイステップの手順と文書化されたコードで説明しています。
生成AIを使用して、ブランドに沿った画像を作成するための最新のソリューションアクセラレーターをご覧ください。