メインコンテンツへジャンプ

Koalas:pandas から Apache Spark への容易な移行 – データラングリング(カテゴリ変数の導入)

April 24, 2019 Tony LiuTim Hunter による投稿 in
データブリックスは本日開催された Spark + AI Summit において、PySpark の DataFrame API を拡張してpandas と互換性を持たせる新しいオープンソースプロジェクトの Koalas(コアラズ) を発表しました。 Python のデータサイエンスはここ数年で急速に拡大し、pandas は今ではエコシステムの要となっています。データサイエンティストはデータセットを入手する場合、pandas を使って検証します。pandas はデータラングリング(データクレンジング/データクリーニングおよびデータ整形)や分析に最適のツールです。実際に、pandas の read_csv は、データサイエンスに取り組む多くの学生が最初に学習する実行コマンドです。 pandas に課題があるとすれば、ビッグデータのスケーリングに適していないことです。pandas...

大規模なデータレイクのための Delta タイムトラベルのご紹介

February 4, 2019 Burak YavuzPrakash Chockalingam による投稿 in
実験再現、ロールバック、データ監査のためのデータバージョニング Apache Spark の上に構築された次世代統合分析エンジンである Databricks Delta Lake にタイムトラベル機能を導入し、全てのユーザーの皆様にお届けできることを嬉しく思います。この新機能により、Delta は データレイク に保存されているビッグデータを自動的にバージョンアップし、そのデータの任意の履歴バージョンにアクセスすることができます。この一時的なデータ管理により、監査、誤った書き込みや削除があった場合のデータのロールバック、実験やレポートの再現が容易になり、データパイプラインを簡素化することができます。お客様の組織では、分析に必要なクリーンで一元化されたバージョン管理されたビッグデータリポジトリを、お客様自身のクラウドストレージで標準化することが可能になります。 データ変更に伴う共通の課題 データ変更の 監査: データの変更を監査することは、データコンプライアンスの観点からも、データが時間とともにどのように変化したか

MLflow の概要:機械学習ライフサイクル管理のためのオープンソースプラットフォームとは

June 5, 2018 Matei Zaharia による投稿 in
データブリックスの「マネージド型 MLflow」とは MLflow とは、実験の追跡、モデルの管理やデプロイメントといった、機械学習におけるライフサイクルを管理するためのオープンソースのプラットフォームです。機械学習(ML)の開発を経験した人は誰でも、その複雑さを知っています。ソフトウェア開発における通常の懸念事項に加えて、機械学習開発には、複数の新たな懸念が伴います。データブリックスの数百社のお客様に共通する課題として、次のような事柄が挙げられます。 ツールの種類が多すぎる :データ準備からモデルトレーニングまで、数百のオープンソースツールが機械学習(ML)ライフサイクルの各フェーズに対応しています。しかし、部門が各フェーズで 1 つのツールを選択する従来のソフトウェア開発とは異なり、機械学習では、通常、 利用可能な全てのツール (アルゴリズムなど)を試して、結果が改善されるかどうかを確認します。そのため、機械学習開発者は数十のライブラリを使用し、本番環境に導入する必要があります。 実験の追跡が困難 :機械学習