Pandas APIとSparkバックエンド(Koalas)
動画の内容
データ分析のための最も人気のあるフレームワークの一つであるにもかかわらず、pandasは分散されておらず、TBのデータを処理することはできません。Databricksは、ユーザーがpandas APIを利用しながら、Spark分散エンジンでデータを処理することを可能にすることで、この問題を解決します。このデモでは、pandas API(以前はKoalasとして知られていました)を使用してビッグデータを処理する方法を示します。
デモをインストールするには、無料のDatabricksワークスペースを取得し、Pythonノートブックで以下の2つのコマンドを実行してください
Dbdemosは、ワークスペースに完全なDatabricksデモをインストールするPythonライブラリです。Dbdemosはノートブック、Delta Live Tablesパイプライン、クラスター、Databricks SQLダッシュボード、ウェアハウスモデルなどをロードして開始します。詳細はdbdemosの使用方法をご覧ください。
DbdemosはGitHubプロジェクトとして配布されています。
詳細については、GitHubのREADME.mdファイルをご覧いただき、ドキュメンテーションに従ってください。
Dbdemosはそのまま提供されています。詳細はライセンスと通知をご覧ください。
Databricksは、dbdemosおよび関連資産に対して公式のサポートを提供していません。
問題が発生した場合は、チケットを開いてデモチームが最善を尽くして対応します。