データエンジニアリング

ページ 3

集まれ！Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください！さて、今回はVol.6として満を持して登場、アマゾンウェブサービスジャパン合同会社本橋和貴様をご紹介します。 —- 以前にご紹介したLegendary...

大手金融機関がデータブリックスを採用したワケは

October 11, 2023 Hisae Inoue による投稿 in Databricks ブログ

去る6月28日、サンフランシスコで開催されたDATA＋AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData＋AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート（6/27 Partner Summit） - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。...

集まれ！Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 5として、前回のVol4 に引き続き株式会社ナレッジコミュニケーション様から山川将也様をご紹介します。 —- 以前にご紹介したLegendary...

意外に知られていないDatabricksワークフローの活用方法

August 6, 2023 Takaaki Yayoi による投稿 in データエンジニアリング

Databricksには Databricksワークフローという機能があります。 Databricksノートブックで開発したロジックを簡単にスケジュール処理にすることができます。しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

構造化ストリーミングにおける複数のステートフルオペレーター

August 6, 2023 Angela Chu、イム・ジョンテクによる投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse をストリーミングに最適なプラットフォームとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ

集まれ！Legendary Heroes of DATA + AI !! Vol 4　

June 28, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 4として、株式会社ナレッジコミュニケーション小山翼様をご紹介します。 —- 以前にご紹介したLegendary Heroes of...

Delta Live Tablesを用いたサイバーセキュリティのレイクハウス向けETLパイプラインの構築

June 7, 2023 Silvio Fiorito による投稿 in データエンジニアリング

翻訳: Masahiko Kitamura オリジナル記事: Building ETL pipelines for the cybersecurity lakehouse with Delta Live Tables Databricksはこのほど、データエンジニア、データサイエンティスト、アナリストが、複雑なインフラを管理することなく、あらゆるクラウド上で信頼性の高いデータ、分析、MLワークフローを構築できるようにする Workflows を発表しました。Workflowsでは、 Delta Live Tables を使用して、インジェストやリネージを含む自動管理されたETLパイプラインを構築することができます。ワークフローとDelta Live...

Apache ParquetデータレイクをDelta Lakeにシームレスに移行する

June 7, 2023 ディパンカル・クシャリ、Uday Satapathy による投稿 in エンジニアリングのブログ

Original: Seamlessly Migrate Your Apache Parquet Data Lake to Delta Lake 翻訳: junichi.maruyama Apache Parquet は、今日のビッグデータの世界で最も人気のあるオープンソースのファイルフォーマットの1つです。列指向であるApache Parquetは、データの保存と検索を効率的に行うことができるため、過去10年間に多くの企業がデータレイクにおけるデータ保存の必須方法として採用しました。中には、Apache Parquetファイルを「データベーステーブル」として利用し、CRUD操作を行う企業もあります。しかし、Apache Parquetファイルは単なるデータファイルであり、トランザクションロギング、統計収集、インデックス作成機能を持たないため、ACIDに準拠したデータベース操作には適していません。このようなツールの構築は、膨大な数の開発チームが独自に開発し、それを維持する必要があるため、途方もない作業です。その結

Delta Lakeとの統合でデータエコシステムを統一する

May 8, 2023 Itai Yaffe、リラン・バレケットによる投稿 in エンジニアリングのブログ

Original : Unifying Your Data Ecosystem with Delta Lake Integration 翻訳： junichi.maruyama 組織がデータインフラを成熟させ、データレイクにこれまで以上に多くのデータを蓄積していく中で、Delta Lakeのようなオープンで信頼性の高いテーブルフォーマットは非常に必要になってきます。すでに何千もの企業が本番でDelta Lakeを使用しており、（2022年6月に発表された） Delta Lakeのすべてをオープンソース化したことで、さまざまなドメインや垂直方向での採用がさらに進んでいます。それらの企業の多くは、Databricksとその他のデータおよびAIフレームワーク（Power BI、Trino、Flink、Spark on Kubernetesなど）の両方を技術スタックの一部として使用しているため、それらすべてのフレームワークを使用してDelta...

Terraform Databricksのモジュールを発表

May 3, 2023 Yassine Essawabi、Hao Wang、Alex Ott による投稿 in エンジニアリングのブログ

Original: Announcing Terraform Databricks modules 翻訳: junichi.maruyama Databricks Terraformプロバイダーは1,000万インストールを突破し、一般提供開始後1年未満で大幅に採用が増えました。この重要なマイルストーンはTerraformとDatabricksプロバイダーが、Lakehouse Platformのインフラ展開と管理を自動化するために、多くのお客様に広く利用されていることを示すものです。インフラの維持、管理、拡張を容易にするために、DevOpsチームはTerraform モジュールと呼ばれるモジュール化された再利用可能なコンポーネントを使用してインフラを構築します。Terraformモジュールによって、複数のユースケースや環境にわたって同じコンポーネントを簡単に再利用することができます。また、組織全体でリソースを定義し、ベストプラクティスを採用するという標準的なアプローチを強制することができます。一貫性に