プラットフォーム | Databricks Blog

ページ 28

レイクハウスと Delta Lake の内部構造

September 10, 2020 Joel Minnick による投稿 in Databricks ブログ

Databricks は以前のブログで、企業におけるレイクハウス（LH）採用の増加状況について解説しました。このブログの内容は、技術系のオーディエンスから大きな反響がありました。多くの方がレイクハウスを次世代のデータアーキテクチャとして賞賛してくださったのですが、データレイクと何ら変わらないのではいうご意見もいただきました。そこで、Databricks のエンジニアと創業者が、データレイクとは一線を画すレイクハウスパラダイムを核とする技術的課題とソリューションについてのリサーチペーパー「Delta Lake: High-performance ACID Table Storage over Cloud Object Stores」（Delta Lake：クラウドオブジェクトストアによる高性能ACIDテーブルストレージ）を共同執筆しました。このペーパーは、大規模データベースの国際会議 VLDB2020 で受理、発表されました。リサーチペーパーの全文はこちらからダウンロードできます。「もし私が顧客に何が欲し

データ分析と AI の活用で COVID-19 影響下の公衆衛生監視を改善

August 28, 2020 Mike Maxwell による投稿 in エンジニアリングのブログ

Databricks における公共セクター（州・地方政府）部門のリーダーである私は、米国の政府による新型コロナウイルスと COVID-19 の危機への取り組みを身近に見る機会があります。この危機に立ち向かい、命を救うために業務遂行している彼らの姿勢には常に敬服させられます。暗いニュースが続く中、COVID-19 に関して公衆衛生機関がもたらした重要な新たな成果の報告もあります。米国疾病予防管理センター（CDC）をはじめとする公衆衛生部門による優れた活動は、あまりニュースの見出しになることはありませんが、実際は極めて素晴らしい成果を生み出しています。私たちと同じように、地方自治体や州政府も、状況が変化するたびに一歩ずつ理解を深めています。早期に感染が発生した国で成功した COVID-19 対応プログラムを参考にし、公衆衛生機関はまず、重要なデータソースとして接触者の追跡の必要性を認識し、接触者追跡プログラムの実装を急ぎました。接触者追跡プログラムを導入したことで、膨大なデータが利用可能になりました。世界的

カスタマーリテンション（顧客維持）による LTV の向上と最大化 – ML のハイパーパラメータで解約率を予測

August 24, 2020 ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）、Hector Leano による投稿 in エンジニアリングのブログ

顧客のロイヤルティや維持率が高い企業では、収益が同業他社に比べ 250% 早く成長し、10 年間での株主利益率も 2 倍から5 倍に達します。顧客のロイヤルティを獲得し、定着数を最大にすることは、企業と顧客ベースの両方に多くの利益をもたらします。ではなぜ多くの企業にとって顧客の維持が難しいのでしょうか？ARPU（顧客 1 人あたりの平均売上高）を指標とする通信会社などのサブスクリプションベースの企業以外は、顧客維持率の公式な開示を重視していない企業がほとんどです。企業では、顧客ではなく製品やサービスの機能面に重点を置き、顧客ロイヤルティはこれらの取り組みによって自然に向上するものと考えています。実際に、ニールセンの 2020 年の調査結果では、「企業のマーケティング目標の中で、顧客離脱・解約への対応の優先度は最下位」であることが明らかになっています。多くの事実からも、顧客の消費行動が変化していることがわかっており、顧客維持は特に重要な課題です。新型コロナウイルス感染症（COVID-19）による消費行動

Azure 環境でのモダン IIoT 分析 - Part 3

August 20, 2020 Samir Gupta、Lana Koprivica、Hubert Duan による投稿 in 製品

モダン IIoT（産業用 IoT）アプリケーションのための Azure データ分析に関するブログを 3 部構成でお届けしています。前回の Part 2 では、フィールドデバイスからリアルタイムの IIoT データを Azure に取り込み、データレイク上で直接実行する複雑な時系列処理について解説しました。Part 3 となる今回は、機械学習を活用した予測メンテナンスで風力タービンの収益を最大にすると同時に、ダウンタイムによる機会コストを最小限に抑え、利益を最大化する手法を解説します。モデルのトレーニングによって得られた結果とそれを視覚化したものは、以下のような Power BI レポートに表示されます。下の図は、エンドツーエンドのアーキテクチャを示したものです。機械学習：出力と残存耐用年数の最適化風力タービンのような産業用資産のユーティリティ、耐用期間、運用効率における最適化は、収益とコストに多くのメリットをもたらします。このブログでは、風力タービンの収益を最大にすると同時に、ダウンタイムによる機会コスト

Delta Engine の概要

June 24, 2020 Adam Conway（アダム・コンウェイ）、Joel Minnick による投稿 in Databricks ブログ

本日、Databricks は Delta Engine を発表しました。Delta Engine は、Apache Spark 完全互換のベクトル化クエリエンジンで、最新の CPU アーキテクチャに対応し、Databricks Runtime 7.0 に含まれている Spark 3.0 のクエリオプティマイザおよびキャッシング性能の最適化機能を連携させます。その相乗効果により、データレイク、特に Delta Lake で実現されたデータレイクでのクエリ性能が大幅に高速化され、レイクハウスアーキテクチャの採用やスケーリングが容易になります。実行性能のスケーリング...

Apache Spark 3.0 概要｜Python API の強化・PySpark API の拡充など新機能搭載

June 18, 2020 Matei Zaharia、Reynold Xin（レイノルド・シン）、Xiao Li、Wenchen Fan、Yin Huai による投稿 in 製品

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...

MLflow モデルレジストリをエンタープライズ機能に拡張

April 15, 2020 マニ・パルケ、スー・アン・ホン、Jules Damji、Clemens Mewald による投稿 in Databricks ブログ

Databricks の MLflow モデルレジストリにエンタープライズレベルの新機能が追加されました。 Databricks の統合分析プラットフォームをご利用いただいている場合、MLflow モデルレジストリはデフォルトで有効になります。このブログでは、モデル管理を一元化するハブとしての MLflow モデルレジストリのメリットをご紹介し、組織内のデータチームによるモデル共有やアクセス制御、モデルレジストリ API を活用した統合や検証について解説します。 MLflow によるハブの一元化が、モデルライフサイクル管理のコラボレーションを可能に MLflow には、実験の一部としてのメトリクス、パラメータ、アーティファクトをトラッキングする機能...

COVID-19 のデータセットがデータブリックスで利用可能に ― データコミュニティによる貢献

April 14, 2020 Christopher Denny による投稿 in エンジニアリングのブログ

2020年4月14日初稿、2020年4月21日更新新型コロナウイルス感染症（COVID-19）の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、米国ジョンズ・ホプキンス大学のシステム科学工学センター（CSSE）が提供するデータリポジトリが挙げられます。このデータセットは、COVID-19（2019-nCoV）について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例（郡地域）と死亡者（円で表現）の比例数を視覚的に示しています。他にも、病原体の進化をリアルタイムで追跡できる新型コロナウイルスのゲノム情報などの例があります（マウスのクリックで感染と系統が再生を再生します）。病院からのリソース使用率のモデリングの有力な例には、ワシントン大学保健指標評価研究所（IHME）によるC

データレイクとデータウェアハウスとは？それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

January 30, 2020 Ben Lorica、Michael Armbrust、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォーム

Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「データレイクハウス」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス（DWH: Data Warehouse）、データレイク（Data Lake）それぞれと比較して優れている点について解説します。データウェアハウス（DWH）とはデータウェアハウス（DWH）とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI（ビジネスインテリジェンス）アプリケーションにおいて広く利用されてきており、これには長い歴史があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処理が可能なシステムがもたらされました。しかし、データウェアハウスには、エクセルで作成されたような構造化データ（あらかじ

Facebook Prophet と Apache Spark による高精度で大規模な時系列予測・分析とは

January 27, 2020 ビラル・オベイダット（Bilal Obeidat）、ブライアン・スミス（Bryan Smith）、Brenner Heintz による投稿 in Databricks ブログ

Databricks の時系列予測・解析 Notebook を試してみる時系列予測・分析技術の進展により、小売業における需要予測の信頼性は向上しています。しかし、より正確なインベントリ管理を実現したい企業にとっては、予測の精度とタイミングが課題となっています。従来のソリューションにおいては拡張性や正確性の面で制約がありましたが、 Apache Spark™ と Facebook Prophet の活用によってこれらの課題を克服する企業が増えてきています。 To see this solution for Spark 3.0, please read the post here...