メインコンテンツへジャンプ
<
ページ 2
>

Delta Lake で機械学習の課題を解決

既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーである Delta Lake や機械学習の開発で使用される MLflow が話題に上る機会が増えています。しかし、多くのケースでは 2 つが別々の製品として取り上げられています。本ブログでは、機械学習の開発の際に起こりうるデータのバージョン管理や OOM エラーなどの課題において Delta Lake と MLflow の相乗効果に焦点を当て、堅牢なデータ基盤に基づく有用な機械学習結果を得るために Delta Lake をいかに活用すべきかについて解説します。 データサイエンティストであれば、機械学習のモデル作成のプロセスは既に整っており、MLflow を機械学習モデルの本番環境へのデプロイに活用したことがあるでしょう。MLflow には、実験を追跡できる機能や、モデルのプロモーションに活用できる MLflow モデルレジストリが備わっています。また、コードのバージョン、クラスタのセットアップ、データの場所などの追跡機能による再現

Databricksで PyTorch を習得する 7 つの理由

April 14, 2021 Jules Damji による投稿 in
新しい概念、言語、システムについて学ぶ場合、どのような学習方法が有効でしょうか。新しいタスクを学ぶ際に、既に習得しているスキルとの類似点を探すのではないでしょうか。 学習者に好まれる学習過程の特性として、「親しみやすさ」、「わかりやすさ」、「シンプル」、の 3 つの共通点があります。これまでに習得した知識との共通点による親しみやすさは、新たな知識の習得に対する敷居を低くします。わかりやすさにより、内容を把握する際の負担が最小限になります。そして、シンプルであるということは、未知の事柄を取り入れる際の問題が少なく、新しい概念、言語、システムの習得による成果を高めます。 Aside from being popular among researchers, gaining adoption by machine learning practitioners in production, and having a vibrant community...

Koalas(PySpark)がDask よりも高速な理由 – SQL クエリ最適化など

Koalas は、Apache Spark 上で pandas API を実装するデータサイエンスライブラリです。Koalas を利用することで、データサイエンティストは、使い慣れた API を介してあらゆる規模のデータセットを扱うことができます。今回私たちは、ビッグデータ分析の際によく使用される pandas API を実装した並列計算ライブラリの Dask と、PySpark の Koalas とのパフォーマンス比較を行いました。ベンチマークテストを繰り返したところ、 Koalas のパフォーマンスは、Dask と比較して、シングルノードで 4 倍、クラスタで...

レイクハウスによるデータレイク・データウェアハウスの統合

February 4, 2021 Ryan Boyd による投稿 in
このブログは、CIDR レポート 「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」 (レイクハウス:データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム)の著者の許可を得て、レポートの内容をベースに執筆したブログシリーズの第一弾です。 データアナリスト、データサイエンティスト、AI のスペシャリストたちは、高品質で信頼性の高い、最新のデータが不足していることにストレスを感じています。ストレスの一部は、フォーチュン 500 企業の大半で現在使用されている 2 層データアーキテクチャ(データレイクとデータウェアハウス)の弱点に起因しています。一方で、データの信頼性とリアルタイム性を両立する...

カスタマーリテンション(顧客維持)による LTV の向上と最大化 – ML のハイパーパラメータで解約率を予測

顧客のロイヤルティや維持率が高い企業では、収益が同業他社に比べ 250% 早く成長 し、10 年間での株主利益率も 2 倍から5 倍に達します。顧客のロイヤルティを獲得し、定着数を最大にすることは、企業と顧客ベースの両方に多くの利益をもたらします。 ではなぜ多くの企業にとって顧客の維持が難しいのでしょうか?ARPU(顧客 1 人あたりの平均売上高)を指標とする通信会社などのサブスクリプションベースの企業以外は、顧客維持率の公式な開示を重視していない企業がほとんどです。企業では、顧客ではなく製品やサービスの機能面に重点を置き、顧客ロイヤルティはこれらの取り組みによって自然に向上するものと考えています。実際に、 ニールセンの 2020 年の調査結果 では、「企業のマーケティング目標の中で、顧客離脱・解約への対応の優先度は最下位」であることが明らかになっています。 多くの事実からも、顧客の消費行動が変化していることがわかっており、顧客維持は特に重要な課題です。 新型コロナウイルス感染症(COVID-19)による消費行動

Apache Spark™ 3.0 のデータ型:日付とタイムスタンプ

Apache Spark は、構造化データと非構造化データの処理に使用される非常に一般的なツールです。構造化データの処理に関しては、整数、LONG、DOUBLE、STRING といった多くの基本的なデータ型をサポートしています。Spark は、開発者が理解するのが難しいことが多い DATE や TIMESTAMP などの複雑なデータ型もサポートしています。このブログでは、日付型とタイムスタンプ型について深く掘り下げ、その動作と一般的な問題を回避する方法を解説します。主に、次の 4 つの部分をカバーしています。 日付型と関連する暦法の定義と Spark 3.0 から適用された暦法の変更について タイムスタンプ型の定義とタイムゾーンとの関係(タイムゾーンオフセットの解消に関する詳細と、Spark 3.0 で使用される Java 8 の新しい Time API...

COVID-19 のデータセットが データブリックスで利用可能に ― データコミュニティによる貢献

2020年4月14日初稿、2020年4月21日更新 新型コロナウイルス感染症(COVID-19)の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、 米国ジョンズ・ホプキンス大学のシステム科学工学センター(CSSE)が提供するデータリポジトリ が挙げられます。このデータセットは、COVID-19(2019-nCoV)について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例(郡地域)と死亡者(円で表現)の比例数を視覚的に示しています。 他にも、病原体の進化をリアルタイムで追跡できる 新型コロナウイルスのゲノム情報 などの例があります(マウスのクリックで 感染と系統が再生 を再生します)。 病院からのリソース使用率のモデリングの有力な例には、 ワシントン大学保健指標評価研究所(IHME) によるC

Facebook Prophet と Apache Spark による高精度で大規模な時系列予測・分析とは

Databricks の時系列予測・解析 Notebook を試してみる 時系列予測・分析技術の進展により、小売業における需要予測の信頼性は向上しています。しかし、より正確なインベントリ管理を実現したい企業にとっては、予測の精度とタイミングが課題となっています。従来のソリューションにおいては拡張性や正確性の面で制約がありましたが、 Apache Spark™ と Facebook Prophet の活用によってこれらの課題を克服する企業が増えてきています。 To see this solution for Spark 3.0, please read the post here...

データブリックスを活用した大規模な地理空間情報・ジオデータの処理と分析

December 5, 2019 Nima RazaviMichael Johns による投稿 in
近年のテクノロジーの進化と統合により、リアルタイムで正確な地理空間情報・ジオデータを活用した市場が活性化しています。地理空間情報・ジオデータは日々、数十億ものハンドヘルドデバイスや IoT 機器、航空機や人工衛星に搭載された何千ものリモートセンシングプラットフォームから、数百エクサバイト生成されています。このような地理空間ビッグデータの拡大に、近年の機械学習の進展が加わり、業界ではこれを活用した新製品やサービスの開発が進められています。 図の説明:地理空間情報・ジオデータによるマップは、災害対策、防衛・インテリジェンス、インフラ事業、医療サービスなど、多くの分野で活用されている。 企業における地理空間情報・ジオデータの活用代表例として、ドローンを利用したマッピングや現地調査などのサービス提供があります。(参考: 「インテリジェントクラウドとインテリジェントエッジの発展」 )。地理空間データの活用で急速な成長を遂げているもう1つの産業は、自動運転車です。スタートアップ企業に加え、既存企業も車載センサーから豊富なコン