メインコンテンツへジャンプ

DataFrames

Databricks 無料トライアル

DataFrame とは

DataFrame の概念は、多くの言語やフレームワークで共通しています。DataFrame は、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。

DataFrame にはスキーマと呼ばれる青写真が含まれており、各列の名前とデータタイプが定義されています。Spark DataFrame には、文字列型や整数型などの汎用的なデータタイプと、構造型などの Spark 固有のデータタイプを含むことが可能です。欠損値や不完全な値は、DataFrame に Null 値として格納されます。

DataFrameは、名前付きの列を持つ表形式データとして理解できます。ただし、スプレッドシートが 1 台のコンピュータの特定の場所に存在するのに対し、DataFrame は数千台のコンピュータをまたげるという違いがあります。このように、DataFrame では、分散コンピューティングクラスタを使用して、ビッグデータの分析が可能です。

データを複数のコンピュータに分散配置する理由は明確です。データが大きすぎて 1 台のマシンに収まらないか、1 台のマシンでは計算に時間がかかりすぎるかでしょう。

DataFrame

DataFrame は、 Python のデータ分析ライブラリである pandas で主に使用されているデータ構造で、R や Scala、その他の言語でも使用されています。

FAQ

1. DataFrameとは何ですか?
行と列からなる表形式データを、スキーマ付きで扱うためのデータ構造です。

2. Spark DataFrameの特徴は何ですか?
分散クラスタ上で動作し、大規模データを並列処理できる点が特徴です。

3. DataFrameとスプレッドシートの違いは何ですか?
見た目は似ていますが、DataFrameは数千台規模の計算機にまたがってデータ処理が可能です。

関連資料

用語集に戻る