データ変換
データ変換とは
データ変換とは、データソースから抽出された未加工データを利用可能なデータセットに変換するプロセスです。多くの場合、データパイプラインには複数のデータ変換が含まれ、煩雑な情報をクリーンで質の高い、信頼できるデータに変換します。組織はこのデータを活用して運用ニーズを満たし、実用的なインサイトを取得できます。データ変換プロセスは、データエンジニアリングにおける重要なプロセスです。
Databricks についてさらに詳しく
データ変換が重要な理由
データ変換プロセスは、データセットを操作して、ビジネスデータアプリケーションで利用できるようになします。生データから価値を実現するために、インサイトを生成してビジネスの意思決定に利用することは極めて重要です。データ変換は、ビジネスの過去、現在、未来をよりよく理解し、アジャイルな方法で機会を追求するために必要なデータを提供します。
データ変換と ETL
データ変換は、抽出、変換、格納を意味する ETL の中核です。データエンジニアがさまざまなソースからデータを抽出し、そのデータを利用可能で信頼できるリソースに変換し、エンドユーザーがアクセスできるシステムにロードするプロセスです。これにより、後工程でビジネス上の問題解決にデータを活用できるようになります。変換の段階では、データはクレンジングされ、マッピングされ、特定のスキーマに変換されます。
データ変換の例
データの品質と整合 性を保証するために、いくつかの異なる種類の変換があります。重複データを削除してデータの品質と性能を向上させるデータ重複排除から、無関係なデータをフィルタリングして品質を向上させるデータの精緻化、異なるデータタイプを同じ構造に統合するデータの統合まで、さまざまな方法があります。データ変換の種類とその定義については、次のセクションを参照してください。
データ変換の種類
データ変換プロセスは、データと最終的な変換目標に応じて、いくつかの異なる手法で達成することができます。次のような種類があります。
バケット化/ビン化:数値系列をより小さな「バケット」または「ビン」に分割すること。しきい値のセットを使用して、数値特徴をカテゴリー特徴に変更することによって行われます。
データの集計:データを要約し、レポートや可視化でよりよく利用できるようにするプロセス。集計は、時間、空間、その他の次元にわたる値の合計、平均、中央値を使用するなど、さまざまな方法で達成できます。
データクレンジング:不正確、不完全、または古い情報を削除することにより、データの正確性と品質を高めるプロセス。
データの重複排除:データ転送プロセスを高速化するために、データの重複コピーを特定し、削除する圧縮プロセス。
データの派生:データソースから必要な特定の情報のみを抽出するためのルールを作成すること。
データのエンリッチメント:データフィールドを拡張したり、欠落しているデータフィールドを補完するために、外部データソースを使用して既存のデータを強化するプロセス。
データのフィルタリング:必要な情報のみを表示するために、無関係なデータを除外してデータを絞り込むこと。
データの統合:異なるデータタイプを同じ構造に統合すること。データの統合により、異種データを標準化し、全体として分析できるようにします。
データの結合:共通のデータフィールドを使用する複数のデータベーステーブルを 1 つのデータセットに結合する操作。
データの分割:データを分析するために、1 つの列を複数の列に分割すること。これは、長期にわたって収集された大量のデータを分析する際に便利です。
データの要約:データの集計の一種で、値の合計を計算することにより、さまざまなビジネス指標を作成すること。
データの検証:特定のデータの問題への対応を生成する自動化されたルールを作成することにより、データの品質を確保すること。
フォーマットの改訂:異なるデータ型を含むフィールドに関する問題を解決するためにフォーマットを変更するプロセス。
キーの再構築:データシステムの速度低下を防ぐために、組み込まれた意味を持つキーを汎用キー(ソースデータベースの情報を参照する乱数)に変更するプロセス。
データ変換パフォーマンスの最適化
データ変換のプロセスには、時間もリソースもかかります。データ変換パフォーマンスを最適化することは、コスト削減と時間短縮のために非常に重要です。パフォーマンス最適化には、次のような技術があります。
- データ圧縮
- パーティショニング
- ファイルサイズ調整
- データのスキップおよびプルーニング
- データキャッシング
データ変換パフォーマンスの最適化については、包括的ガイドをご覧ください。
データ変換ツール
データ変換は、組織が洞察に活用できる信頼性の高いデータを作成するために不可欠です。しかし、データ変換プロセスと ETL プロセス全体には、信頼性の高いデータパイプラインの構築と維持から、複雑化するパイプラインアーキテクチャにおけるデータ品質の管理まで、深刻な課題があります。データ変換ツールは、変換を合理化、民主化し、ETL のライフサイクルをシンプルにします。
データインテリジェンスプラットフォームでのデータ変換
Databricks は、データインテリジェンスプラットフォーム上でデータ変換と ETL を実装し、オーケストレーションするために不可欠なツールを提供しています。
Delta Live Tables(DLT)は、データエンジニアリングチームがデータインテリジェンスプラットフォーム上で高品質なデータを提供する信頼性の高いバッチおよびストリーミングデータパイプラインを簡単に構築および管理できるようにします。DLT は自動データ品質テストを提供し、効率的なコンピュート自動スケーリングによってストリーミングのコスト効率を高め、パイプラインの監視とオブザーバビリティ(可観測性)のための詳細な視認性を提供します。
Databricks Workflows は、データパイプラインの自動化とオーケストレーションを強化する完全に統合されたマネージドオーケストレーションサービスです。ETL、分析、機械学習パイプラインのマルチタスクワークフローの定義、管理、監視を容易にし、生産性を向上させます。Workflow は、dbt とシームレスに統合されています。データチームの誰もが本番向けのデータパイプラインに安全に貢献でき、変換をより迅速かつセキュアに行うことができるツールです。