データガバナンスを改善しAI対応の小売組織を構築する
人工知能は、小売および消費財のすべての経営幹部にとっての最重要の課題です。 企業は、より良い顧客サービスを提供し、より迅速で正確な洞察を導き出し、より優れたイノベーションとパートナーとのコラボレーションを推進できる可能性を認識しています。 数十億ドルが危険にさらされています。 これらの新しいAIシステムを強化するために必要なデータについては、あまり言及されていません。 従来のレポートデータに加えて、これらのAIシステムはプレゼンテーション、文書、電子メール、顧客サービスの記録、画像などを消費します。 AIシステムの品質は、システムに供給されるデータがどれだけ適切に管理されているかに完全に依存します。 構造化データを運用システムから分析システムに流すプロセスの定義と改良には数十年が費やされましたが、非構造化データをめぐる取り組みの大部分は、ストレージとコンピューティングコストの管理が中心でした。 組織がこれらの情報資産を分析基盤に組み込もうとする中で、これらのデータの品質、信頼性、適切な使用方法に関する重要な疑問が
Databricks Feature Serving(特徴量サービング)の一般提供開始のお知らせ
本日、Databricks Feature Serving(特徴量サービング)の一般提供を開始いたします。 特徴量はAIアプリケーションにおいて極めて重要な役割を果たし、通常、正確に計算し、低レイテンシーでアクセスできるようにするためにはかなりの労力を必要とします。 この複雑さによって、本番のアプリケーションの品質を向上させるための新機能の導入が難しくなります。 特徴量サービングを利用すれば、AIアプリケーションに対して、単一のREST APIを使用してリアルタイムで、事前に計算された特徴量やオンデマンドの特徴量を簡単に提供することができます! 特徴量サービングは、高速で安全、かつ簡単に使用できるように設計されており、次のような利点があります: 高速かつ低TCO - 特徴量サービングは、低TCOで高いパフォーマンスを提供するように設計されており、ミリ秒単位の待ち時間で特徴量を提供できます。 フィーチャーチェーン - 事前に計算された特徴量とオンデマンド計算のチェーンを指定することで、複雑なリアルタイム特徴量の計算
コネクテッドカーのデータ革命で勝者と敗者を分けるもの
"よりスマートフォンに近い自動車を作ることが未来です。 アップルやすべてのスマートフォン企業が通話を変えたように、私たちも乗り心地を変えようとしています。" - ジム・ファーレイ(フォード・モーターCEO) 自動車をスマートフォンに例えたジム・ファーレイの例えは、すべての自動車会社にとっての現実です。 現代の自動車は、複数のセンサーモダリティ、150もの電子制御ユニット(ECU)、1億行を超えるコードを通じて、毎日1,000倍以上のデータを生成しています。 コネクテッド・ビークルの成長(2030年までに世界で販売される新車の95%)に伴い、コネクテッド・ビークル・データを収益化し、よりパーソナライズされたサービス、付加価値の高いデジタル・オファー、エコシステムの収益化によって差別化を推進することは、すべての自動車会社にとって戦略上不可欠です。 コネクテッド・ビークル・データの収益化のパイのサイズは膨大です。 2030年までに、新しいサブスクリプション主導型サービスは、平均して自動車1台あたり年間310ドルの増分経
Veritas: Datavant on Databricks を通じて現実世界のデータを提供
この投稿は、Veritas Data Researchの最高経営責任者のジェイソン・ラボンテ氏との共同執筆によるものです。 ヘルスケアとライフサイエンスの領域では、データは医学のブレークスルーを推進し、患者の転帰を改善するための要となっています。 適切な実世界のデータソースを活用することで、医療、研究、製薬組織全体のイノベーションを促進することができます。 ガートナー社 によると、外部データ共有に取り組んでいるデータとアナリティクスのリーダーは、そうでないリーダーに比べて、測定可能な経済的利益を3倍多く生み出すことができます。 死亡率データの重要な役割 死亡率データは、治療の有効性、公衆衛生政策、プロトコルの設計に関する深い洞察を提供する、健康分析における重要な基礎です。 しかし、保険請求や電子カルテのような従来の臨床データセットでは、このような重要なエンドポイントを捉えることは困難です。 このギャップから、患者の転帰を正確に理解するためには、臨床実データ(RWD)を死亡率データセットで補強する必要があります。
Databricks、Brickbuilderプログラムを拡張してUnity Catalog Acceleratorsを追加
本日、Brickbuilder Unity Catalog Acceleratorsを発表いたします。 この プログラム は、システムインテグレーターやコンサルティングパートナーの専門知識と、実績のあるフレームワークや構築済みのコードを組み合わせて、企業が特定の方法論や Databricksデータインテリジェンスプラットフォーム の機能を迅速に実装できるように支援するものです。 パートナーソリューションとアクセラレータで構成されるBrickbuilderプログラムは、 業界と 移行ソリューションに 焦点を当てて始まり、あらゆる規模の顧客が数ヶ月ではなく数週間でDatabricksデータインテリジェンスプラットフォームを使用してレイクハウスアーキテクチャーをセットアップし、充実させることを支援するアクセラレーターを含むように急速に拡大しました。 今日、Databricksは、生産性を向上させ、価値を最適化するために、顧客のあらゆる段階に適合するアクセラレーターを開発するために、トップパートナーとの協力と投資を続けて
DataFrameの等式関数を使ったPySparkテストのシンプル化
DataFrameの等式テスト関数 は、PySparkのユニットテストを簡素化するためにApache Spark™ 3.5とDatabricks Runtime 14.2で導入されました。 このブログ記事で説明した機能一式は、次期Apache Spark 4.0とDatabricks Runtime 14.3から利用可能になります。 DataFrameの等式テスト関数を使用して、より信頼性の高いDataFrame変換を記述 PySparkでデータを扱うには、DataFrameに変換、集約、操作を適用します。 変換が蓄積されるにつれて、コードが期待通りに動作することをどうやって確信できるでしょうか? PySparkの等式テストユーティリティ関数は、データを期待される結果と照らし合わせてチェックする効率的で効果的な方法を提供し、予期しない差異を特定して分析プロセスの初期段階でエラーを検出するのに役立ちます。 さらに、デバッグに多くの時間を費やすことなく、即座に対策を講じることができるように、違いを正確に特定する直感的
KXとDatabricksの統合:資本市場などにおける時系列データ分析の進歩
KXとDatabricksは、資本市場分野向けの時系列分析ソリューションの開発で提携し、クオンツ調査や一時的な取引データ分析など、多くのユースケースをサポートしています。 これまで、SQL、Python、Rなどのデータサイエンスや分析のプログラミング言語では、時系列分析が煩雑で時間がかかっていました。 SQLはその人気と強力なクエリ言語にもかかわらず、時系列データの順序(例えば、時間ベースの結合)や以前の状態に関する質問には限界があります。 PythonやR、そしてSparkでさえ、時間分析を実行するには何ページものコードが必要です。 これらの限界は、時系列分析に伴う高次元データの課題によってさらに複雑になっています。 特にヘッジファンドや機関投資家にとって、このコラボレーションは、KXの専門的な時系列データ処理能力と、Databricksで利用可能な包括的な計算および機械学習フレームワークを組み合わせたものです。 このパートナーシップは、時系列データに焦点を当てることで、金融業界向けの定量的・データサイエンス研
大規模言語モデルを用いて常識に沿った商品レコメンデーションを行う
詳細とノートブックのダウンロードについては、 LLM Solution Accelerators for Retail をご覧ください。 商品の推薦(レコメンデーション)は、現代の顧客体験の中核をなす機能です。 ユーザーは以前利用したことのあるサイトに戻ったとき、以前の利用内容に関連するレコメンデーションが表示されることを期待します。 ユーザーが特定のアイテムに興味を持ったとき、類似した関連性のある代替品が提案され、自分のニーズに合ったアイテムを見つけられることを期待します。 また、商品がカートに入れられると、ユーザーは、全体的な購買体験を完成かつ向上させる追加の商品がレコメンドされることを期待します。 このような商品のレコメンデーションが適切に行われれば、買い物がスムーズになるだけでなく、ユーザーは小売店によって認識され、理解されていると感じることができます。 商品のレコメンデーションを生成するための様々なアプローチがありますが、現在使用されているレコメンデーションエンジンのほとんどは、小売業者固有の大規模なデ
StreamNativeとDatabricks、Pulsar-Sparkコネクターでリアルタイムデータ処理を強化
Apache Pulsarベースのリアルタイムデータプラットフォームソリューションのリーディングプロバイダーである StreamNative と、データインテリジェンスプラットフォームである Databricks は、強化された Pulsar-Sparkコネクター を発表します。 リアルタイムデータ処理 がビジネスにとって益々重要になっている今、このコラボレーションは、Apache Pulsar™ と Apache Spark ™ という2つの強力なオープンソース技術の強みを組み合わせたものになります。 Apache Pulsar™ Apache Pulsar™ はオープンソース、分散型メッセージングおよびイベントストリーミングプラットフォームであり、高い耐久性、スケーラビリティ、低レイテンシのメッセージングを提供します。 リアルタイムのデータストリーミングを処理するように設計されており、単純なpub/subメッセージングから複雑なイベント駆動型のマイクロサービスアーキテクチャまで、さまざまなアプリケーションに使
Databricksの検索機能へのインテリジェンスの追加
Databricksワークスペースの検索機能が大幅に改善されました。これらの機能強化は 、 Databricksプラットフォーム内のデータインテリジェンスエンジンであるDatabricksIQ を 基盤として おり、AIを活用したよりインテリジェントな検索エクスペリエンスを提供します。 AIが生成したメタデータを利用した検索 Databricksの検索機能の主なメリットの1つは 、 Unity Catalog で 管理されているデータに対して AIが生成したテーブルとカラムのコメント を 利用できる ことです 。これらのコメントにより、検索エンジンはデータの意味とセマンティクスを理解することができ、より関連性が高く、正確で、実用的な結果を生成するために必要なコンテキストを提供します。 AIが生成するコメントはDatabricksIQによって提供されます。DatabricksIQは、検索ユースケース向けに、様々な業界のスキーマ例からエンタープライズデータ向けに特別にチューニングされた大規模言語モデル(LLM)を採用