メインコンテンツへジャンプ

ShutterstockのコンテンツデータセットがDatabricks Marketplaceに登場!

Shutterstock の堅牢なコンテンツ データセットを使用して機械学習モデルを強化する
Share this post

今日のデータドリブンの世界では、視覚的な資産と分析機能の融合により、未開発の可能性の領域が開かれます。 画像データセットは、生成AI (GenAI) テクノロジの開発とトレーニングに不可欠です。 Shutterstock の画像の膨大なコレクションを Databricks Marketplace に提供する画期的なコラボレーションを発表できることを嬉しく思います。これは、Marketplace におけるボリューム (非表形式) データセットの最初のリストです。 この無料サンプル データセットは、Shutterstock の 5 億 5000 万点以上の画像ライブラリから抽出された 1,000 枚の画像と付随するメタデータ ソース で構成されており、すぐにアクセスできます。 このブログでは、Databricks Marketplace の Shutterstock の画像ライブラリと業界のユースケースについて説明します。

Databricks Marketplace を選ぶ理由

従来のデータマーケットプレイスは制約が多く、表形式データやシンプルなアプリケーションしか提供されないため、データコラボレーターにとっての価値は限られています。また、データセットを評価するためのツールも提供されていません。Databricks Marketplaceはオープンなマーケットプレイスで、クラウド、地域、プラットフォームを超えて、表形式データセット、ボリューム、ノートブック、AIモデルなどのデータ資産を共有および交換することができます。6月のローンチ以来、Databricks Marketplaceには180以上のプロバイダーから1,800以上のリスティングが集まっています。

Databricks Marketplace

Databricks Marketplaceの Shutterstock

「Shutterstockは、ほぼ10億のクリエイティブコンテンツ資産の膨大なコレクションを、オープンデータとAIのコラボレーションを促進するプラットフォームとして知られるDatabricks Marketplaceに提供します」とShutterstockの最高エンタープライズ責任者であるAimee Eganは述べています。Eganによれば、「この統合により、私たちの倫理的に調達された広範なビジュアルコンテンツライブラリへの無類のアクセスが提供され、さまざまな業界で責任あるAIおよびMLイニシアチブを推進します。私たちは、データを提供する手段としてDelta Sharingを追加できることに興奮しています。Databricks上で私たちの豊富なデータセットを活用する顧客は、新たな機会を発見し、製品イノベーションを促進し、競争優位性を確保することができます。」

Shutterstockのデータセットには、キーワード、説明、地理的位置、カテゴリーなどのすべてのメタデータが含まれており、画像の整理や検索が容易になります。データセットの例として、食品・飲料、交通・自動運転車両、動物・野生生物、衣料・アパレル、旅行・観光・ホスピタリティなど、幅広い業界カテゴリーがあります。1Shutterstockの画像ライブラリは、GenAIにおいて重要な役割を果たし、OpenAIのDALL-Eのような高度なAIモデルやマルチモーダルモデルのトレーニングのための基盤となるリソースとして機能します。

「Shutterstock は、オープンデータと AI コラボレーションを促進することで有名なプラットフォームである Databricks Marketplace に、約 10 億点のクリエイティブ コンテンツ資産の膨大なコレクションを提供します。」
— Aimee Egan氏、Shutterstock、最高エンタープライズ責任者

Shutterstock のリストの詳細、アクセス方法、ノートブックを使用してクエリを実行する方法については、以下のデモをご覧ください。

新たな可能性とユースケースを解き放つ

Shutterstock がMarketplaceに掲載されたことで、イノベーションを推進する業界全体の一般的な使用例が次のように紹介されました。

  • メディア&エンターテイメント:毎日、ユーザーは何百万枚もの写真を作成しています。 メディア組織は、Shutterstock の膨大なライブラリによって強化された機械学習モデルを活用して、これらの画像内のコンテンツを自動的に解釈できます。 この機能により、顧客データを精査して、より効果的な広告ターゲティングとエンゲージメントの向上が可能になります。
  • 小売業:アパレル小売業者は、購入前に顧客に似た人物に新しい服がどのように見えるかを示す、パーソナライズされた「購入前に試着できる」画像を生成したいと考えています。 Shutterstock の広範なライブラリにより、小売業者はライセンス問題のリスクなしに正確な画像を動的に作成できるようになります。
  • AI スタートアップ:専門的な機械学習の最前線に立つ企業は、ビジネスの基盤となるモデルを構築するために、クリーンかつ倫理的にソース化されたデータセットを必要としています。 責任ある AI は、注目を集める訴訟を回避するために投資家の指示に従って AI スタートアップを拡大する上で不可欠になっています。

Shutterstockはボリュームシェアリングを使用してシームレスなコラボレーションを実現

ボリュームは、Unity Catalog 内のオブジェクトの一種であり、ガバナンス フレームワークでアクセス、保存、管理できるディレクトリとファイルのコレクションとして、表形式以外のデータの統合を簡素化します。

先日発表したように、パブリック プレビューで利用可能な Delta Sharing を通じてボリュームを共有できるようになりました。 ボリューム共有を使用すると、PDF、画像、ビデオ、オーディオ ファイル、その他のドキュメント、表、ノートブック、AI モデルなどの表形式以外のデータの広範なコレクションを、クラウド、リージョン、アカウント間で安全に共有できます。

Shutterstock のこの無料サンプル データセットは、Databricks Marketplace で提供される最初のボリュームベースのリストです。 Shutterstock の多様な画像コレクションと付随するメタデータにアクセスすることで、ボリューム共有を使用して、データをコピーせずに、Retrieval Augmented Generation (RAG) 技術を使用してこのデータセットを生成AIアプリケーションに組み込むことができます。

ボリューム共有は、ビジネス ユニットやパートナー間のコラボレーションを加速するだけでなく、クラウド、プラットフォーム、リージョン全体で新しい共同作業者をオンボードするのにも役立ちます。 Shutterstock などの Databricks Marketplace のデータ プロバイダーは、表形式以外のデータをシームレスかつ簡単に消費者と共有できるようになりました。 このアプローチにより、データ アクセスが民主化され、高品質のデータセットを取得して利用するために必要な時間とリソースが大幅に削減されます。

それはどのように組み合わされるのでしょうか?

ウェブサイト上の製品の説明を改善したいと考えている架空の小売業者 Berkeley FoodMartの例を見てみましょう。 適切に最適化された製品リストは、検索エンジンの結果に目立つように表示される可能性が高くなり、潜在的な顧客を引き付け、オーガニックトラフィックを増加させます。 さらに、最適化されたタイトルと説明により、ユーザーはリストをクリックするようになり、クリック率が向上し、より多くの訪問者が製品を閲覧するようになります。

課題は? Berkeley FoodMart は他の食料品店と同様、店舗に 50,000 個の製品があり、毎年 20% の売上高があり、適切な説明が必要な製品は数十万個または数百万個に上ります。 すべての製品の説明を手動で管理するのはコストがかかりすぎます。 これらのコストを考えると、既存の説明は多くの場合、幅が限られています。

Berkeley FoodMart は、Databricks Marketplace から取得した Shutterstock の多様な画像データセットを活用して、これを自動化します。 Berkeley FoodMart は、自社の Web サイト上の製品のメタデータと説明を自動化するために、ブランドや製品のデータを含む Shutterstock の膨大な画像ライブラリと自社の内部画像を使用して、画像からテキストへのアナリティクスを生成します。

  1. まず、Berkeley FoodMartはShutterstockのチームと協力して、必要なデータの量と量を特定します。 Shutterstockは、ボリュームとメタデータの検索条件に基づいて、配信する画像をカスタマイズするお手伝いをします。 Shutterstock は、ビデオやオーディオ データなどの他のデータ製品も配布しています。
  2. Databricks Marketplace を通じてデータセットが調達されると、Shutterstock データセットは Berkeley FoodMart と共有されます。
  3. Berkeley FoodMart と共有されているボリュームのメタデータは、Berkeley FoodMart によって指定されたカタログ名でマウントされたDatabricks Unity Catalogで利用できます。
    バークレーフードマート
  4. Berkeley FoodMart は、強力なメタデータを備えた Shutterstock データセットを活用して、画像からテキストへのモデルを構築し、新しい製品画像からメタデータとキーワードを生成します。 Shutterstock 画像データセットは、Berkeley FoodMart が明確なデータ元で安全にモデルを構築できるように、完全にキュレーションされています。 LLM ではこれらのキーワードを使用して、ユーザーフレンドリーな製品説明を作成します。 Databricksファインチューニングにより、 Berkeley FoodMart は好みのLLMモデルから始めて、新しいデータセットでさらにトレーニングを行う機能を提供することで、これを簡単に実行できます。
  5. Berkeley FoodMart は、 Databricksモデルサーバーを使用して、微調整されたモデルを、将来の画像を簡単に自動的に処理できるシステムに展開します。
  6. このメタデータと説明は、最初は手動で確認されますが、時間が経つにつれて、システムは学習し、より多くの自動化を可能にします。 これにより、豊富な製品の説明を大規模に作成できるようになり、Berkeley FoodMart のユーザーが製品を簡単に見つけられるようになります。

Databricks Marketplace で Shutterstock を使い始める

AIとデータドリブンのイノベーションの未来は明るく、このようなツールを活用すれば、私たちが協力して達成できることに限界はありません。 このエキサイティングな旅に乗り出し、テクノロジーとクリエイティビティの展望を変革しましょう。

ソース

  1. Shutterstockデータライセンスとコントリビューター基金
Databricks 無料トライアル

関連記事

DatabricksにAIモデルの共有機能が新登場!

本日、 Databricks Delta Sharingと Databricks Marketplaceの 両方でAIモデルの共有が可能になったことを発表できることを嬉しく思います。 Delta Sharingを使用すると、クラウド、プラットフォーム、地域を越えて、組織内または外部でAIモデルを安全に共有し、提供することができます。 さらに、Databricks Marketplaceは、 John Snow Labsから 医療専門家をサポートするための60の新しい業界別AIモデルをリリースしました。 AIモデルの共有はパブリックプレビューで、Delta Sharingとマーケットプレイスで利用可能です。 Databricks Data Intelligence Platformは、モデル提供、AIトレーニング、モデル監視を含むエンドツーエンドの機械学習機能により、モデルの検索と共有を行う新しい機能をサポートします。 ジェネレーティブAIで高まるシェアリング需要に対応 ここ数カ月、DatabricksはDatab

レイクハウスのデータ共有とコラボレーションの新機能のご紹介

翻訳:Saki Kitaoka. - Original Blog Link Databricksは、データ、アナリティクス、AIを横断するデータ共有とコラボレーション( data sharing and collaboration )のための初のオープンソースアプローチを提供します。お客様は、ベンダーに依存することなく、プラットフォーム、クラウド、地域を超えて、ライブデータセット、AIモデル、アプリケーション、ノートブックを共有することができます。プロバイダーは、革新的なデータ製品を提供する機会を拡大することで、イノベーションを加速し、新たな収益源を生み出すことができます。この柔軟性は、 Delta Sharing を Databricks Unity Catalog と統合して、共有データセットへのアクセスを管理、追跡、監査することで、強固なセキュリティとガバナンスとともに実現されます。Lakehouse Collaboration Platformを進化させる新機能を発表できることを嬉しく思います。Datab
プラットフォームブログ一覧へ