Databricks ブログ

ページ 67

Koalas（PySpark）がDask よりも高速な理由 – SQL クエリ最適化など

April 7, 2021 Xinrong Meng、Hyukjin Kwon による投稿 in エンジニアリングのブログ

Koalas は、Apache Spark 上で pandas API を実装するデータサイエンスライブラリです。Koalas を利用することで、データサイエンティストは、使い慣れた API を介してあらゆる規模のデータセットを扱うことができます。今回私たちは、ビッグデータ分析の際によく使用される pandas API を実装した並列計算ライブラリの Dask と、PySpark の Koalas とのパフォーマンス比較を行いました。ベンチマークテストを繰り返したところ、 Koalas のパフォーマンスは、Dask と比較して、シングルノードで 4 倍、クラスタで...

ソリューションアクセラレータ：通信業界のための顧客離脱の予測

February 24, 2021 ダン・モリス、Hector Leano、Steve Sobel による投稿 in エンジニアリングのブログ

本ブログで参照する Notebook にスキップできます。米通信大手 T-Mobile によるキャリアフリーの導入は、単なるマーケティングキャンペーンにとどまらず、米国通信市場のダイナミクスを根本的に変えるきっかけとなりました。かつての通信業界は、安定した公益事業のように成長し、携帯電話の本体料金を無料にするための通話プランによって、利用者を 2 年間の契約で縛ってきました。しかし、次の 3 つの要因により、通信業界のビジネスの本質が変わることになります。電話番号の継続使用：2004 年以降、キャリアを変更しても電話番号は継続使用できるようになり、利用者がプロバイダを変更する際の最大の障壁の 1 つが解決しました。通話プラン契約の廃止：携帯電話本体の価格の上昇により、各キャリアは本体購入料金の補助金を中止し、通話プランの契約が廃止されました。競合企業：T-Mobileが、データプランの価格設定の積極的な変更と広告費への増額投資をおこない、市場シェアを拡大。これまで2強のシェアだった市場において、強力な第3

Hadoop（ハドゥープ）からの移行に伴う潜在価値とは

February 18, 2021 Brian Dirking による投稿 in Databricks ブログ

Hadoop（ハドゥープ）とは、分散処理技術（分散処理基盤）とも呼ばれ、テキストや画像、動画などの非構造化データの格納と処理ができるオープンソースのプラットフォームのことです。ファイルの管理には、分散ファイルシステム HDFS（Hadoop Distributed File System）が使用されていることが特徴です。長年にわたり、この Hadoop（ハドゥープ）はビッグデータの分析を支えるデフォルトのテクノロジーでした。しかし、時間の経過とともに、その欠点をカバーし、かつ、より優れた分析ソリューションを提供する新たなテクノロジーが登場し、Hadoop は遅れをとるようになりました。多くの企業が Hadoop 運用を続けることによるTCO（総所有コスト）を見直し、最新のクラウドベース分析プラットフォームへの移行を是認する方向に動いています。Databricks では先日、ホワイトペーパー「The Hidden Value of Hadoop Migration」（Hadoop からの移行に伴う潜在価値）を発

Databricks on Google Cloud を発表しました

February 17, 2021 Hiral Jasani による投稿 in お知らせ

Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

レイクハウスによるデータレイク・データウェアハウスの統合

February 4, 2021 Ryan Boyd による投稿 in エンジニアリングのブログ

このブログは、CIDR レポート「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」（レイクハウス：データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム）の著者の許可を得て、レポートの内容をベースに執筆したブログシリーズの第一弾です。データアナリスト、データサイエンティスト、AI のスペシャリストたちは、高品質で信頼性の高い、最新のデータが不足していることにストレスを感じています。ストレスの一部は、フォーチュン 500 企業の大半で現在使用されている 2 層データアーキテクチャ（データレイクとデータウェアハウス）の弱点に起因しています。一方で、データの信頼性とリアルタイム性を両立する...

分散型 ML の生産性を高める Ray と MLflow の統合

February 3, 2021 Amog Kamsetty、Archit Kulkarni による投稿 in エンジニアリングのブログ

This is a guest blog from software engineers Amog Kamsetty and Archit Kulkarni of Anyscale and contributors to Ray.io In this blog post...

データブリックスとアクセンチュアの連携で大規模な機械学習の運用を効率化

February 1, 2021 Jim Gregg、Atish Ray による投稿 in パートナー

データブリックスはこのたび、アクセンチュアとのパートナーシップを発表しました。このパートナーシップを通じて世界中のエンタープライズ企業に、私たちのサービスと再利用可能なコンポーネントを提供できることが期待されています。また、データ戦略、データ設計、データプラットフォームの最新化、および AI を専門とするアクセンチュアのデータ・AI 部門は、データブリックスの統合データ分析プラットフォームを活用し、これまでに実証された手法を、機械学習の大規模な運用に向けて最適化できます。アクセンチュアとデータブリックスは共に、エンタープライズにおけるデータのサイロ化の解消、アジャイルで適応性の高いプロセスの構築、データドリブンな意思決定による問題解決、新たな機会創出を可能にします。アクセンチュアとデータブリックスのグローバルなパートナーシップは、両社が以前から共同でソリューションアクセラレータおよびソリューションを開発してきた実績に基づいています。私たちはさまざまな業界のお客様にこれらを提供し、機会創出を支援してきました。また

Disney+ 事例：Databricks と AWS で構築したストリーミングデータの分析プラットフォームで顧客エクスペリエンス向上

December 14, 2020 Hector Leano による投稿 in Databricks ブログ

ディズニープラス（Disney+）のソフトウェアエンジニアリングディレクターであるマーティン・ザプレタル（Martin Zapletal）氏が、AWS re:Invent 2020 に登壇し、同社におけるユビキタスな高速データを活用した顧客エクスペリエンスの改善への取り組みについて講演しました。ディズニープラスでは、Databricks on AWS を基盤とするアーキテクチャによって、数百万のリアルタイムなストリーミングイベントの処理および分析を行っています。ザプレタル氏の講演では、そのアーキテクチャについて詳しく紹介されました。セッション要旨：ディズニープラスでは、タイトルレコメンデーションの提供、マイクロサービスへのイベントの送信、オペレーション分析のためのログの作成などのリアルタイムなアクションの推進に Amazon Kinesis を活用し、顧客エクスペリエンスを向上させています。このセッションでは、ディズニープラスがいかにしてリアルタイムかつデータドリブンな能力を備えた統合ストリーミングプラット

Databricks の MLflow モデルレジストリと CI/CD 機能で MLOps を簡素化

November 19, 2020 スー・アン・ホン、Ankit Mathur、Jules Damji、マニ・パルケによる投稿 in エンジニアリングのブログ

MLflow は、実験のメトリクスやパラメータ、アーティファクトの追跡、モデルをバッチまたはリアルタイムでサービングシステムに展開する機能を提供し、組織における機械学習（ML）ライフサイクルの管理を支援します。 MLflow モデルレジストリは、実験段階からデプロイメントへのハブとして、モデル展開のライフサイクルを管理する中央リポジトリを提供します。 MLOps 、機械学習ライフサイクル管理において、継続的インテグレーションと継続的デプロイメント（CI/CD）のプロセスは極めて重要です。このブログでは、全ての Databricks ユーザーが利用できるタグやコメント、Webhook 通知機能など、CI/CD プロセスを円滑にする Databricks の MLflow モデルレジストリの新機能をご紹介します。 AWS 、 Azure との連携についてはそれぞれのページをご覧ください。なお、このブログでは、Data+AI サミット 2020 で一般提供を発表した...

データサイエンティスト向け：Databricks Notebook を使いこなす 10 のヒント

October 29, 2020 Jules Damji による投稿 in エンジニアリングのブログ

「最高のアイディアにはシンプルなものがある」という格言があるように、たとえ小さくても大きな違いを生むことがあります。今年行った数回のリリースの過程で、Databricks をシンプルにするために、大きな違いにつながる小さな機能を Notebook に追加しました。このブログと付随する Notebook では、簡単なマジックコマンドを紹介し、データサイエンティストの開発時間を短縮し、開発者のエクスペリエンスを向上させるために Notebook に追加したユーザーインターフェースの機能を解説します。強化された機能には、次のものが含まれます。 %pip install %conda env export および update %matplotlib inline %load_ext tensorboard および...