メインコンテンツへジャンプ

DataFrames

Databricks 無料トライアル

DataFrame とは

DataFrame の概念は、多くの言語やフレームワークで共通しています。DataFrame は、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。

DataFrame にはスキーマと呼ばれる青写真が含まれており、各列の名前とデータタイプが定義されています。Spark DataFrame には、文字列型や整数型などの汎用的なデータタイプと、構造型などの Spark 固有のデータタイプを含むことが可能です。欠損値や不完全な値は、DataFrame に Null 値として格納されます。

簡単に例えると、DataFrame は名前付きの列を持つスプレッドシートのようなものです。ただし、スプレッドシートが 1 台のコンピュータの特定の場所に存在するのに対し、DataFrame は数千台のコンピュータをまたげるという違いがあります。このように、DataFrame では、分散コンピューティングクラスタを使用して、ビッグデータの分析が可能です。

データを複数のコンピュータに配置する理由は、容易に想像できます。データが大きすぎて 1 台のマシンに収まらないか、1 台のマシンでは計算に時間がかかりすぎるかでしょう。

DataFrame

DataFrame の概念は、多くの言語やフレームワークで共通しています。DataFrame は、 Python のデータ分析ライブラリである pandas で主に使用されているデータ構造で、R や Scala、その他の言語でも使用されています。

関連資料

用語集に戻る