Pandas APIとSparkバックエンド(Koalas)

デモタイプ

製品チュートリアル

時間

セルフペースで受講

ソーシャル

動画の内容

データ分析のための最も人気のあるフレームワークの一つであるにもかかわらず、pandasは分散されておらず、TBのデータを処理することはできません。Databricksは、ユーザーがpandas APIを利用しながら、Spark分散エンジンでデータを処理することを可能にすることで、この問題を解決します。このデモでは、pandas API(以前はKoalasとして知られていました)を使用してビッグデータを処理する方法を示します。

 

デモをインストールするには、無料のDatabricksワークスペースを取得し、Pythonノートブックで以下の2つのコマンドを実行してください

%pip dbdemosをインストールします
import dbdemos
dbdemos.install('pandas-on-spark')

Dbdemosは、ワークスペースに完全なDatabricksデモをインストールするPythonライブラリです。Dbdemosはノートブック、Delta Live Tablesパイプライン、クラスター、Databricks SQLダッシュボード、ウェアハウスモデルなどをロードして開始します。詳細はdbdemosの使用方法をご覧ください。

 

DbdemosはGitHubプロジェクトとして配布されています。

詳細については、GitHubのREADME.mdファイルをご覧いただき、ドキュメンテーションに従ってください。
Dbdemosはそのまま提供されています。詳細は
ライセンス通知をご覧ください。
Databricksは、dbdemosおよび関連資産に対して公式のサポートを提供していません。
問題が発生した場合は、チケットを開いてデモチームが最善を尽くして対応します。