オープンソース | Databricks Blog

ページ 2

Databricksで PyTorch を習得する 7 つの理由

April 14, 2021 Jules Damji による投稿 in エンジニアリングのブログ

新しい概念、言語、システムについて学ぶ場合、どのような学習方法が有効でしょうか。新しいタスクを学ぶ際に、既に習得しているスキルとの類似点を探すのではないでしょうか。学習者に好まれる学習過程の特性として、「親しみやすさ」、「わかりやすさ」、「シンプル」、の 3 つの共通点があります。これまでに習得した知識との共通点による親しみやすさは、新たな知識の習得に対する敷居を低くします。わかりやすさにより、内容を把握する際の負担が最小限になります。そして、シンプルであるということは、未知の事柄を取り入れる際の問題が少なく、新しい概念、言語、システムの習得による成果を高めます。 Aside from being popular among researchers, gaining adoption by machine learning practitioners in production, and having a vibrant community...

Koalas（PySpark）がDask よりも高速な理由 – SQL クエリ最適化など

April 7, 2021 Xinrong Meng、Hyukjin Kwon による投稿 in エンジニアリングのブログ

Koalas は、Apache Spark 上で pandas API を実装するデータサイエンスライブラリです。Koalas を利用することで、データサイエンティストは、使い慣れた API を介してあらゆる規模のデータセットを扱うことができます。今回私たちは、ビッグデータ分析の際によく使用される pandas API を実装した並列計算ライブラリの Dask と、PySpark の Koalas とのパフォーマンス比較を行いました。ベンチマークテストを繰り返したところ、 Koalas のパフォーマンスは、Dask と比較して、シングルノードで 4 倍、クラスタで...

レイクハウスによるデータレイク・データウェアハウスの統合

February 4, 2021 Ryan Boyd による投稿 in エンジニアリングのブログ

このブログは、CIDR レポート「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」（レイクハウス：データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム）の著者の許可を得て、レポートの内容をベースに執筆したブログシリーズの第一弾です。データアナリスト、データサイエンティスト、AI のスペシャリストたちは、高品質で信頼性の高い、最新のデータが不足していることにストレスを感じています。ストレスの一部は、フォーチュン 500 企業の大半で現在使用されている 2 層データアーキテクチャ（データレイクとデータウェアハウス）の弱点に起因しています。一方で、データの信頼性とリアルタイム性を両立する...

分散型 ML の生産性を高める Ray と MLflow の統合

February 3, 2021 Amog Kamsetty、Archit Kulkarni による投稿 in エンジニアリングのブログ

This is a guest blog from software engineers Amog Kamsetty and Archit Kulkarni of Anyscale and contributors to Ray.io In this blog post...

カスタマーリテンション（顧客維持）による LTV の向上と最大化 – ML のハイパーパラメータで解約率を予測

August 24, 2020 ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）、Hector Leano による投稿 in エンジニアリングのブログ

顧客のロイヤルティや維持率が高い企業では、収益が同業他社に比べ 250% 早く成長し、10 年間での株主利益率も 2 倍から5 倍に達します。顧客のロイヤルティを獲得し、定着数を最大にすることは、企業と顧客ベースの両方に多くの利益をもたらします。ではなぜ多くの企業にとって顧客の維持が難しいのでしょうか？ARPU（顧客 1 人あたりの平均売上高）を指標とする通信会社などのサブスクリプションベースの企業以外は、顧客維持率の公式な開示を重視していない企業がほとんどです。企業では、顧客ではなく製品やサービスの機能面に重点を置き、顧客ロイヤルティはこれらの取り組みによって自然に向上するものと考えています。実際に、ニールセンの 2020 年の調査結果では、「企業のマーケティング目標の中で、顧客離脱・解約への対応の優先度は最下位」であることが明らかになっています。多くの事実からも、顧客の消費行動が変化していることがわかっており、顧客維持は特に重要な課題です。新型コロナウイルス感染症（COVID-19）による消費行動

Apache Spark™ 3.0 のデータ型：日付とタイムスタンプ

July 22, 2020 Maxim Gekk、Wenchen Fan、Hyukjin Kwon による投稿 in エンジニアリングのブログ

Apache Spark は、構造化データと非構造化データの処理に使用される非常に一般的なツールです。構造化データの処理に関しては、整数、LONG、DOUBLE、STRING といった多くの基本的なデータ型をサポートしています。Spark は、開発者が理解するのが難しいことが多い DATE や TIMESTAMP などの複雑なデータ型もサポートしています。このブログでは、日付型とタイムスタンプ型について深く掘り下げ、その動作と一般的な問題を回避する方法を解説します。主に、次の 4 つの部分をカバーしています。日付型と関連する暦法の定義と Spark 3.0 から適用された暦法の変更についてタイムスタンプ型の定義とタイムゾーンとの関係（タイムゾーンオフセットの解消に関する詳細と、Spark 3.0 で使用される Java 8 の新しい Time API...

COVID-19 のデータセットがデータブリックスで利用可能に ― データコミュニティによる貢献

April 14, 2020 Christopher Denny による投稿 in エンジニアリングのブログ

2020年4月14日初稿、2020年4月21日更新新型コロナウイルス感染症（COVID-19）の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、米国ジョンズ・ホプキンス大学のシステム科学工学センター（CSSE）が提供するデータリポジトリが挙げられます。このデータセットは、COVID-19（2019-nCoV）について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例（郡地域）と死亡者（円で表現）の比例数を視覚的に示しています。他にも、病原体の進化をリアルタイムで追跡できる新型コロナウイルスのゲノム情報などの例があります（マウスのクリックで感染と系統が再生を再生します）。病院からのリソース使用率のモデリングの有力な例には、ワシントン大学保健指標評価研究所（IHME）によるC

Facebook Prophet と Apache Spark による高精度で大規模な時系列予測・分析とは

January 27, 2020 ビラル・オベイダット（Bilal Obeidat）、ブライアン・スミス（Bryan Smith）、Brenner Heintz による投稿 in Databricks ブログ

Databricks の時系列予測・解析 Notebook を試してみる時系列予測・分析技術の進展により、小売業における需要予測の信頼性は向上しています。しかし、より正確なインベントリ管理を実現したい企業にとっては、予測の精度とタイミングが課題となっています。従来のソリューションにおいては拡張性や正確性の面で制約がありましたが、 Apache Spark™ と Facebook Prophet の活用によってこれらの課題を克服する企業が増えてきています。 To see this solution for Spark 3.0, please read the post here...

データブリックスを活用した大規模な地理空間情報・ジオデータの処理と分析

December 5, 2019 Nima Razavi、Michael Johns による投稿 in エンジニアリングのブログ

近年のテクノロジーの進化と統合により、リアルタイムで正確な地理空間情報・ジオデータを活用した市場が活性化しています。地理空間情報・ジオデータは日々、数十億ものハンドヘルドデバイスや IoT 機器、航空機や人工衛星に搭載された何千ものリモートセンシングプラットフォームから、数百エクサバイト生成されています。このような地理空間ビッグデータの拡大に、近年の機械学習の進展が加わり、業界ではこれを活用した新製品やサービスの開発が進められています。図の説明：地理空間情報・ジオデータによるマップは、災害対策、防衛・インテリジェンス、インフラ事業、医療サービスなど、多くの分野で活用されている。企業における地理空間情報・ジオデータの活用代表例として、ドローンを利用したマッピングや現地調査などのサービス提供があります。（参考：「インテリジェントクラウドとインテリジェントエッジの発展」）。地理空間データの活用で急速な成長を遂げているもう1つの産業は、自動運転車です。スタートアップ企業に加え、既存企業も車載センサーから豊富なコン

Delta Lake でのスキーマ（schema）DB の適用・展開とは

September 24, 2019 Burak Yavuz、Brenner Heintz による投稿 in Databricks ブログ

データブリックスの Notebook シリーズを試すデータは常に進化し、蓄積されていきます。私たち人間の日々の経験と似ているかもしれません。私たちは、自身の周りの世界の変化についていくために、常に新しいデータを取り込み、認識し、ときにはその中から新たな概念や解釈を得ます。このような認識モデルは、まさにテーブルのスキーマそのものです。どちらも、新しく得る情報の分類と処理のしかたを決める役割を持っています。データベースにおけるスキーマとは：そもそも「スキーマ（schema）」とは、日本人にとっても馴染みのある「スキーム（scheme）」という言葉の派生語です。計画や図などの意味を持ち、データベース関連だけでなく、哲学や心理学で使われている言葉でもあります。この記事で説明するデータベーススキーマ（DBスキーマ）とは、簡単に言えばデータベースの構造や整理の仕方のことです。細かな定義は、データベースの種類や会社によって異なりますので、今回は Databricks の次世代型データレイク・データウェアハウスである、D