メインコンテンツへジャンプ

ファイルアップロードとデータ追加UIでLakehouseに簡単に取り込む

レイクハウスまで1分以内のファストトラック
Share this post

Original: Easy Ingestion to Lakehouse with File Upload and Add Data UI

翻訳: junichi.maruyama

Lakehouseへのデータ取り込みは、多くの組織にとってボトルネックとなり得ますが、Databricksを使用すれば、様々なタイプのデータを迅速かつ容易に取り込むことができます。小さなローカルファイルでも、データベース、データウェアハウス、メインフレームなどの大規模なオンプレミスストレージプラットフォームでも、リアルタイムストリーミングデータでも、その他のバルクデータ資産でも、DatabricksはAuto Loader、COPY INTO、Apache Spark™ API、設定可能なコネクタなどの幅広い取り込みオプションであなたをサポートします。また、ノーコードまたはローコードアプローチをご希望の場合は、Databricksはインジェストを簡素化する使いやすいインターフェイスを提供します。

データインジェストブログシリーズの第2弾として、DatabricksのファイルアップロードUIとデータ追加UIをより詳しく解説します。これらの機能により、ファイルをドラッグ&ドロップしてUnity CatalogのセキュアなアクセスでDeltaテーブルにインジェストしたり、ノートブックテンプレートを使って他の幅広いデータソースからインジェストしたり、組み込まれたDatabricks Partner Connect統合からFivetranで利用できる100以上のコネクタから選択することができます。DatabricksのLakehouseインジェストツールを使用することで、データインジェストプロセスを効率化し、データからインサイトを抽出することに集中することができます。

UIによるローコード取り込み機能

  1. ファイルアップロードUI:ドラッグ&ドロップでローカルファイルを1分以内にレイクハウスにアップロード可能

File Upload UI Drop Zone
Figure 1: ファイルアップロード UI ドロップゾーン

ファイルアップロードUIは、デルタテーブルを作成するためにローカルファイルをシームレスかつ安全にアップロードすることができます。左のナビゲーションバー、またはデータエクスプローラーUIとデータ追加UIから、すべてのペルソナでアクセス可能です。UIを使用して、以下の機能でインジェストすることができます:

  • 1つまたは複数のファイル(CSVまたはJSON)を選択またはドラッグ&ドロップする
  • 結果のテーブルをプレビューして設定し、デルタテーブルを作成する(以下の図2参照)
  • 更新を許可しながら、カラムタイプを自動的に検出するなどのデフォルト設定を自動選択する
  • 様々なフォーマットオプションやテーブルオプションの変更(以下の図3および図4参照)

Previewing and selecting a column type
Figure 2: カラムタイプのプレビューと選択
Selecting a file type and updating format options
Figure 3: ファイルタイプの選択とフォーマットオプションの更新
Vertical data preview and excluding columns
Figure 4: 垂直方向のデータプレビューとカラムの除外

ファイルアップロードUIでは、新しいテーブルを作成したり、既存のテーブルを上書きするオプションが用意されています。将来的には、より多くのファイルタイプ、より大きなファイルサイズ、より多くのフォーマットオプションがサポートされる予定です。

    2. データ追加UI:すべてのトップインジェストニーズのための中心的な場所

SQL、データサイエンス&エンジニアリング、機械学習で利用可能なデータ追加UIは、すべてのインジェストニーズのためのワンストップショップとして機能します(図5参照)。ユーザーは、インジェストしたいデータソースをクリックし、UIフローやノートブックの指示に従って、ステップバイステップでデータインジェストを完了させることができます。

Data Sources on the Add Data UI
Figure 5: データ追加UIでのデータソース

今日、Databricksは、Azure Data Lake Storage、Amazon S3、Kafka、Kinesisなど、多くのネイティブ統合をサポートしています。しかし、これらのネイティブな統合に限らず、Fivetranがサポートする179のコネクタのうちの1つを活用することも可能です!右上には検索バーがあり、簡単に検索できます。コネクタを選択するだけで、Fivetranのパートナーコネクト体験ができます。

Partner Connect Fivetran Connection from the Add data UI
Figure 6: データ追加UIからPartner Connect Fivetran Connectionを利用する

ユーザーは、Unity Catalogがある場合はCatalogを、Unity Catalogがないワークスペースでは自動選択されるhive_metastoreを選択することができる。Fivetranに誘導される前に、コンピュートリソースとアクセストークンがユーザーのためにプロビジョニングされます。ユーザーがFivetranにサインインするか、トライアルを開始するためにアカウントを作成すると、Fivetranのコネクタの1つを使用してDatabricksにデータを取り込むことができるようになります。DatabricksとFivetranの接続は自動設定されるため、手作業は必要ありません!

Partner Connect Fivetran Connection Redirect
Figure 7: パートナーコネクト Fivetran コネクションリダイレクト

どのように開始するのか?

Databricksワークスペースのインターフェイスに移動し、"+New "をクリックするだけです。File Upload」または「Data」を選択して探索を開始することができます。

What's next?

私たちは、ファイルアップロードとデータ追加UIの中で、既存のローコード・ノーコードのインジェスト機能を拡張していきます。次回のブログでは、ネイティブ統合のためのUIを深く掘り下げ、Unity Catalogを使ったAzure Data Lake Storage (ADLS), AWS S3, Google Cloud Storage (GCS) からのシームレスなインジェストについて説明します。Lakehouseへのデータ取り込みをこれまで以上に簡単にする、さらなるUI機能にご期待ください。

Databricks 無料トライアル

関連記事

プラットフォームブログ一覧へ