メインコンテンツへジャンプ
<
ページ 42
>

Databricks Lakehouseプラットフォームのブルームバーグ・データを活用したサプライチェーンの混乱とESGリスク管理

このブログは、私たちが提携している業界をリードするデータ・プロバイダーやマーケットプレイスのデータ・プロバイダーを紹介するブログ記事の第一弾です。 ブルームバーグの協力者であるマイケル、マリス、ドンには、この旅を通してのサポートとこのブログへの貢献に感謝する。 サプライチェーンの回復力は、企業にとってますます重要になってきている。 調達マネジャーは、サプライチェーン・ネットワーク全体にわたって透明性のある監視を維持し、潜在的なリスクを認識していなければならない。 近年、サプライチェーンは多くの混乱に直面しており、世界的な大流行によって引き起こされた混乱は、労働者を自宅に留め置き、世界中のサプライチェーンを麻痺させた。 企業がパンデミック(世界的大流行)から脱却するにつれ、リーダーたちは次の大きな混乱にどう備えるべきかを自問自答している。 マッキンゼー・アンド・カンパニーが 2022年に発表した、製造業を対象にした調査報告書によると、過去12ヶ月間にサプライチェーンのリスク管理を新たに実施した企業は全体の3分の2に

Python ユーザー定義テーブル関数(UDTFs)の紹介

Apache Spark™ 3.5とDatabricks Runtime 14.0は、エキサイティングな機能をもたらした:Pythonのユーザー定義テーブル関数(UDTFs)です。 このブログでは、UDTFとは何か、なぜUDTFは強力なのか、そしてどのようにUDTFを使うことができるのかについて説明する。 Pythonのユーザー定義テーブル関数(UDTF)とは? Pythonのユーザー定義テーブル関数(UDTF)は、出力として単一のスカラー結果値の代わりにテーブルを返す新しい種類の関数です。 一度登録されると、SQLクエリの FROM 句に登場させることができる。 各Python UDTFは0個以上の引数を受け入れ、各引数は整数や文字列のような定数スカラー値である。 関数本体は、これらの引数の値を調べて、どのデータを返すべきかを決定することができる。 PythonのUDTFを使うべき理由 要するに、複数の行や列を生成する関数が必要で、Pythonの豊富なエコシステムを活用したいのであれば、Python UDTFが

高度なアナリティクスによる電子事前承認の近代化

このブログは、ZS社ソリューションデリバリーマネージャー、ダン・ニューインガム氏、Databricks社HLSテクニカルディレクター、アーロン・ザボラ氏との共同執筆によるものです。 電子事前承認の 義務化とバリュー・ベースド・ケア(VBC)の取り決めによる償還パターンの進化により、医療保険制度が会員のためにサービスを承認する方法が変化している。 患者の転帰を改善し、事前承認にまつわる増大する管理上の問題を回避し、ビジネスに有意義なROIをもたらすような、増え続けるユースケースでデータを活用する絶好の機会が存在する。 拡大する事前承認の問題 Prior Authorizationは、処置、処方、耐久性医療機器(DME)などの医療サービスの適切な利用を確保するために、医療保険制度によって実施されるプログラムである。 これらのプログラムは、患者のために質の高い結果を維持しながら、不必要なサービスを減らすように設計されている。 質の高い患者の転帰を確保しながらサービスを制限するバランスは、データ& AIを使用しな

Apache Spark™ 3.5におけるArrowに最適化されたPython UDF

Apache Spark™では、Pythonのユーザー定義関数(UDF)は最も人気のある機能の1つです。 ユーザーは、独自のデータ処理ニーズに合わせてカスタムコードを作成することができる。 しかし、シリアライズとデシリアライズのためにcloudpickleに依存している現在のPython UDFは、特に大きなデータの入出力を扱うときに、パフォーマンスのボトルネックに遭遇する。 Apache Spark 3.5と Databricks Runtime 14.0では 、Arrowに最適化されたPython UDFを導入し、パフォーマンスを大幅に改善しました。 この最適化の核となるのが、標準化された言語横断的なカラム型インメモリデータ表現である Apache Arrow である。 Arrowを利用することで、これらのUDFは、従来の遅いデータ(デ)シリアライゼーションの方法をバイパスし、JVMとPythonプロセス間の迅速なデータ交換をもたらします。 Apache Arrowの豊富な型システムにより、これらの最適化され

Databricks + Arcion: Lakehouseへのリアルタイムエンタープライズデータレプリケーション

我々は、リアルタイム・データ・レプリケーション・テクノロジーのリーディング・プロバイダーである Arcion社の買収を完了 したことを発表できることを嬉しく思う。 Arcionの機能により、DatabricksはさまざまなデータベースやSaaSアプリケーションからデータを複製して取り込むネイティブソリューションを提供できるようになり、顧客はデータから価値とAI主導の洞察を生み出すという実際の作業に集中できるようになる。 Arcionのチームとは、Databricksのパートナーとしてだけでなく、 Databricks Venturesの 投資先企業としても、長年にわたって緊密に協力してきました。 この発表により、我々は正式にチームをDatabricksファミリーに迎え入れることになります。 リアルタイムのデータ取り込みとデータベースの複製 Databricksの使命は、あらゆる組織のためにデータとAIを民主化することです。 Databricks Lakehouse Platformは、データ、アナリティクス、AI

サイバーセキュリティ・レイクハウス Part 1: イベントのタイムスタンプ抽出

November 3, 2023 デレク・キング による投稿 in
この4回にわたるブログ・シリーズ "Lessons learned from building Cybersecurity Lakehouses," では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について説明し、それを克服するために私たちが現場で使用したソリューション、ヒント、コツ、ベスト・プラクティスを紹介する。 このシリーズでは、サイバーセキュリティのレイクハウスを作りたいとお考えの方に、課題を学び、進むべき道を提案します。 Databricksは、サイバーログを効率的に処理し、標準化するための実用的なローコード・コンフィギュレーション・ソリューションを構築した。 当社のLakehouseプラットフォームは、データエンジニアリングを簡素化し、検索、分析、ストリーム型脅威検知への迅速な移行を促進します。 既存のSIEMやSOARシステムを補完し、不必要に複雑化することなくサイバーセキュリティ運用を強化します。 第1部では、サイバー分析エンジン

レイクハウスAIがリアルタイム計算でモデルの精度を向上させる方法

機械学習モデルの予測品質は、モデルの訓練と使用に使用されるデータの品質に直接反映される。 通常、特徴量、つまりモデルへの入力データは事前に計算され、保存された後、推論のために検索され、モデルに提供される。 モデルの性能は、特徴計算に使用するデータの鮮度と直接相関することが多いため、これらの特徴を事前に計算できない場合に課題が生じる。 オンデマンド・フィーチャー・コンピュテーションを発表することで、このようなフィーチャー・クラスのサービスを簡素化することができる。 レコメンデーション、セキュリティシステム、不正検知などのユースケースでは、これらのモデルのスコアリング時にオンデマンドで機能を計算する必要がある。 シナリオは以下の通り: 特徴量の入力データがモデル提供時にしか得られない場合。 例えば、 distance_from_restaurantは 、モバイル機器によって決定されたユーザーの最後の既知の位置を必要とする。 ある機能の価値が、それが使われる文脈によって変化する状況。 デバイスの種類がデスク トップと

HiveテーブルをUnityカタログにアップグレードする方法

このブログでは、Hiveメタストア(HMS)*テーブルをUnityカタログ(UC)にシームレスにアップグレードする方法を、アップグレードするHMSテーブルのバリエーションに応じて異なる方法を使用して、例を挙げて説明します。 *注: Hiveメタストアは、デフォルト、外部メタストア、またはAWS Glue Data Catalogでもかまいません。 簡略化のため、本書では"Hive メタストア" という用語を使用します。 詳細を説明する前に、アップグレードの手順を説明しよう。 評価 - このステップでは、アップグレード対象として特定された既存の HMS テーブルを評価し、アップグレードの適切なアプローチを決定します。 このステップについては、このブログで説明します。 作成 - このステップでは、メタストア、カタログ、スキーマ、ストレージ資格情報、外部ロケーションなど、必要なUCアセットを作成します。 詳細については、ドキュメント( AWS 、 Azure...

Predictive I/O for UpdatesのGAを発表 - DMLクエリの高速化

フォトンとAIを活用し、MERGE、UPDATE、DELETE操作を大幅に高速化するDeletion Vectorsを搭載したPredictive I/O for UpdatesのGAを発表。 私たちは15兆回以上の不必要な行の書き込みを防止してきたが、まだ始まったばかりだ。

テールゲートをするかしないか?:Databricks + AccuWeatherがMLを使ってフットボールファンの熱い疑問に答えた方法

NFLの熱狂的ファンであれ、母校を応援するOBであれ、テイラー・スウィフトを一目見ようとするスーパーファンであれ、フットボール・シーズンはアメリカで1年で最もエキサイティングな時期のひとつである。 そして、その楽しみ方にも事欠かない。 何百万人もの視聴者が自宅のソファや近所のバーでくつろぎながら観戦する一方で、多くの視聴者はお気に入りのチームの試合を見るために、時には氷点下の気温の中、スタジアムまで足を運ぶ。 また、チームと一緒に新しい都市を訪れたいと思う人もいるだろう。 しかし、ファンにとっては、1シーズン分の試合からどれを選ぶかを決めるのは大変なことなのだ。 お客様の「最も困難な問題」を解決するDatabricksの精神に則り、私たちはデータと機械学習の力を活用し、NFLや大学のフットボールファンがテールゲーティングで最も得をする方法を予測する手助けをしたいと考えました。 このブログポストでは、Databricks Lakehouse Platform(Databricks AutoMLと Databrick