Databricks ブログ

ページ 29

Databricks AIセキュリティフレームワーク（DASF）の紹介

March 21, 2024 オマール・カワジャ、アルン・パムラパティ、Kelly Albano、エリカ・エーリによる投稿 in プラットフォームブログ

Databricks AI Security Framework（DASF）バージョン1.0 のホワイトペーパーを発表できることを嬉しく思います！このフレームワークは、ビジネス、IT、データ、AI、セキュリティの各グループのチームワークを向上させるように設計されています。本書は、実際の攻撃観察に基づくAIセキュリティリスクの知識ベースをカタログ化することで、AIとMLの概念を簡素化し、AIセキュリティに対する徹底的な防御アプローチを提供するとともに、すぐに適用できる実践的なアドバイスを提供します。機械学習（ML）と生成AI（GenAI）は、イノベーション、競争力、従業員の生産性を高めることで、仕事の未来を変革します。しかし、企業は人工知能（AI）技術を活用してビジネスチャンスを得ると同時に、データ漏洩や法規制の不遵守など、潜在的なセキュリティおよびプライバシーリスクを管理するという二重の課題に取り組んでいます。このブログでは、DASFの概要、組織のAIイニシアチブを保護するためにDASFを活用する方法、

トレーニングの高速化：FP8によるDatabricks Mosaic AIスタックの最適化

March 21, 2024 ミヒル・パテル、チェン・リー、デイビス・ブラロック、Saaketh Narayan による投稿 in モザイクリサーチ

Databricksでは、あらゆる分野の世界最高の企業が、自社独自のデータに基づいてトレーニングされカスタマイズされたAI搭載システムを持つようになると考えています。今日の企業は、独自のAIモデルをトレーニングすることで、競争上の優位性を最大限に高めることができます。私たちは、企業が可能な限り迅速かつコスト効率よくAIを育成するための最良のプラットフォームを提供することをお約束します。本日は、LLMスタックに施されたいくつかの大きな改良をご紹介します。これにより、お客様の事前トレーニングと微調整の効率が大幅に改善されました。この投稿では、最新のスループット数値を紹介し、これらの結果を達成し、何千ものGPUに拡張するのに役立ったいくつかのテクニックについて説明します。最新のベンチマーク結果さっそく結果を見てみましょう。図1は、BFloat16（BF16）とFP8（Float8）のデータ型を使用し、異なるモデルサイズでトレーニングを実行した場合に達成された1秒あたりの浮動小数点演算（FLOPS）を示して

Azure Databricksによるデータ漏洩対策

March 20, 2024 ガネッシュ・ラジャゴパル、ブルース・ネルソン、バヴィン・クカディアによる投稿 in エンジニアリングのブログ

前回のブログでは、仮想ネットワークサービスエンドポイントまたは Private Link を使用して、Azure DatabricksからAzureデータサービスに安全にアクセスする方法について説明しました。この記事では、これらのベストプラクティスのベースラインを前提として、データの流出を防止するために、ネットワークセキュリティの観点からAzure Databricksのデプロイを強化する方法について、詳細な手順をウォークスルーします。 Wikipedia によるとデータ漏洩は、マルウェアや悪意のある行為者がコンピュータから不正なデータ転送を行うことで発生します。一般に、データ漏洩またはデータエクスポートとも呼ばれます。データ漏洩は、データ窃盗の一形態とも考えられています。2000年以降、多くのデータ漏洩が発生し、世界中の企業の消費者信頼、企業評価、知的財産、政府の国家安全保障に深刻な損害を与えました。この問題は、企業が機密データ（PII、PHI、戦略的機密情報）をパブリッククラウドサービスで保管・

Hightouch Campaign IntelligenceとDatabricksでより深いマーケティングの洞察を引き出す

March 20, 2024 ネイト・ウォードウェル、サム・ソーヤー、ブライアン・スミス（Bryan Smith）による投稿 in 業界

次世代の顧客体験は、さまざまなタッチポイントから得られるデータと洞察に基づいて構築されます。マーケティング担当者はこれらを通じて、顧客のニーズや嗜好の微妙な違いを察知し、顧客とビジネスの双方に付加価値をもたらすパーソナライズされたエンゲージメントを構築することができます。しかし、そのためには慎重な思考、計画、実行が必要であり、どんなに綿密な計画を立てても成功が保証されるわけではありません。このため、マーケティング担当者は、特定のオファーやコンテンツ単位に対する直接的な顧客の反応と、これらの取り組みがサポートすることを意図した包括的な組織目標の両方の観点から、取り組みの影響を慎重に検討することが不可欠です。この分析により、マーケティングチームは時間と費用をどこに費やすべきかをより的確に判断できるようになります。キャンペーンインテリジェンス：顧客データとマーケティングデータの統合このような分析と洞察のニーズに対応するため、Hightouchはキャンペーンインテリジェンスを導入しました。このソリューシ

高速、安全、高信頼性：エンタープライズグレードのLLM推論

March 20, 2024 リンデン・リー、ジェフリー・チェン、メーガ・アガルワル、マーガレット・チェン、ダヤ・クディアによる投稿 in モザイクリサーチ

イントロダクション 2023年のめまぐるしい発展の後、多くの企業がビジネスを加速させるために、ますます高性能になる生成AIモデルの採用に躍起になっています。この推進には、最先端の大規模言語モデルをクエリし、企業の既存の業務の流れに組み込む能力が不可欠です。これらのプロジェクトの主力は推論APIで、ユーザーがセキュアな環境にあるモデルにリクエストを送り、素早くレスポンスを受け取るための使いやすいインターフェースです。私たちは、リアルタイムインタラクションの要求に合わせた最先端の推論システムを開発しました。このようなシステムの構築には、革新的なスケジューリング技術から、セキュリティや信頼性を含む新しい考慮事項まで、異なる原則のセットが必要です。このブログポストでは、前回のブログで学んだことを推論APIに取り入れることで、私たちの思考プロセスがどのように進化してきたかを説明します。オンライン推論とユーザー体験にとって重要なことパフォーマンスを最大化するために、推論リクエストはNVIDIAのA100およ

LilacがDatabricksに参画：生成AIの非構造化データ評価をシンプル化

March 19, 2024 Matei Zaharia、ナヴィーン・ラオ、Jonathan Frankle、ハンリン・タン、アキル・グプタによる投稿 in Databricks ブログ

本日、LilacがDatabricksに参画することを発表できることを嬉しく思います。 Lilacは、データサイエンティストが生成AIを中心にあらゆる種類のテキストデータセットを検索、クラスタリング、分析するためのスケーラブルでユーザーフレンドリーなツールです。 Lilacは、大規模言語モデル（LLM）の出力の評価から、モデルのトレーニングのための非構造化データセットの理解と準備まで、さまざまなユースケースに使用できます。 LilacのツールをDatabricksに統合することで、顧客は自社の企業データを使用した生産品質の生成AIアプリケーションの開発を加速させることができます。生成AI時代のデータ探索と理解データは、モデルのトレーニングのためのデータセットの準備、モデルの出力の評価、RAG（Retrieval-Augmented Generation）データのフィルタリングなど、LLMベースのシステムの中核をなすものです。これらのデータセットを探索し理解することは、質の高い生成AIアプリを構築する上で非常

展開中のAI規制への対応をデータインテリジェンスプラットフォームが支援

March 15, 2024 Scott Starbird、Jonathan Frankle による投稿 in Databricks ブログ

世界中の政策立案者が人工知能への関心を高めています。欧州連合（EU）議会では、これまでで最も包括的なAI規制が大差で可決されたばかりです。米国では最近、連邦政府がAIの利用を規制するための注目すべき措置をいくつか講じており、州レベルでも動きがあります。他の国の政策立案者たちも細心の注意を払い、AI規制の整備に取り組んでいます。これらの新たな規制は、単体のAIモデルと、Databricksの顧客がAIアプリケーションを構築するために利用する機会が増えている複合AI システムの両方の開発と使用に影響を与えるでしょう。 2部構成の「AI規制」シリーズをご覧ください。パート1では、米国やその他の国におけるAI政策立案の最近の活発な動きを概観し、世界的に繰り返されている規制のテーマに焦点を当てます。パート2では、Databricksのデータインテリジェンスプラットフォームがどのようにお客様の新たな義務への対応を支援できるかを深く掘り下げ、責任あるAIに対するDatabricksの見解について説明します。米国に

生成AIを使って商品コピー（説明文）の作成を拡張する

March 15, 2024 トリステン・ウェントリング、ブライアン・スミス（Bryan Smith）による投稿 in 業界

eコマースプラットフォームでは、優れた商品説明は商品を目立たせ、販売を促進します。優れた商品説明は、正確で読みやすく、顧客のニーズにつながるだけでなく、ブランドや小売業者のサイトのイメージを強化するものでなければなりません。多くの組織では、少人数のライターチームが商品コピーとも呼ばれる説明文の作成に取り組んでいます。ビジネスのニーズによっては、ブランドとの一貫性を保ちながら、消費者の共感を得るために必要なすべての要素をバランスよく配置するまでに、商品コピーは何度も繰り返し進化することがあります。ファッション業界など、新商品の投入頻度が高い業界では、プラットフォームで販売できるようになるまでに時間がかかります。生成AIを使用することで、コピーライターは新しい商品説明文の作成に取り掛かることができます。生成AIは、商品画像から基本的な説明を抽出し、商品に関する情報を組み合わせて、ブランドのニーズに沿ったトーンやスタイルを反映したコピーの草稿を作成するために使用できます。作家はこれらを出発点として、ゼロか

Mistral AI社へ出資し、「Mistral AI」モデルを「データ・インテリジェンス・プラットフォーム」に統合しました

March 14, 2024 ハゲイ・ルペスコ、Maria Pere-Perez、マーガレット・アモリ、プレム・プラカシュ、キャシー・ミャオによる投稿 in Databricks ブログ

Databricksは、オープンソースソリューションがジェネレーティブAI開発におけるイノベーションと透明性を促進するという信念を共有し、ヨーロッパ有数のジェネレーティブAIソリューションプロバイダーであるMistral AIのシリーズA資金調達への参加とパートナーシップを発表しました。このパートナー関係の深化により、DatabricksとMistral AIは現在、Mistral AIのオープンモデルをDatabricks データ・インテリジェンス・プラットフォームにネイティブに統合して提供しています。Databricksのユーザーは、Databricks MarketplaceでMistral AIのモデルにアクセスし、Mosaic AI Playgroundでこれらのモデルと対話し、Mosaic AI Model Servingを通じて最適化されたモデルのエンドポイントとして使用し、アダプテーションを通じて独自のデータを使用してカスタマイズすることができます。今年に入ってから、すでに1000社近くの企業が

Databricksでの安全かつ責任ある生成AIデプロイのためのLLMガードレールの実装

March 13, 2024 デブ・シンハ、マーガレット・チェン、ジャクリーン・リーによる投稿 in データサイエンス・ML

イントロダクションよくあるシナリオを考えてみましょう。あなたのチームは、オープンソースのLLMを活用して、カスタマーサポート用のチャットボットを構築したいと考えています。このモデルは、本番環境で顧客からの問い合わせを処理するため、いくつかの入力や出力が不適切または安全でない可能性があることに気づかない可能性があります。そして、内部監査の最中になって初めて（運良くこのデータを追跡していた場合）、ユーザーが不適切なリクエストを送信し、チャットボットがそのユーザーとやりとりしていることに気づくのです！さらに深く掘り下げると、チャットボットが顧客を不快にさせている可能性があり、事態の深刻さはあなたが準備できる範囲を超えていることがわかります。チームが本番環境でAIイニシアチブを保護するために、DatabricksはLLMをラップして適切な動作を強制するガードレールをサポートしています。ガードレールに加えて、Databricksはモデルのリクエストとレスポンスをログに記録する推論テーブル（ AWS | Az