データエンジニアリング

ページ 4

Delta Live Tablesを使用して、複数のストリーミングプラットフォームから同時にデータを処理する

April 24, 2023 Uday Satapathy、ディパンカル・クシャリ、Akash Jaiswal による投稿 in エンジニアリングのブログ

Original Blog : Processing data simultaneously from multiple streaming platforms using Delta Live Tables 翻訳： junichi.maruyama 今日の組織における大きな課題の1つは、ビジネスのスピードに合わせた意思決定を可能にすることです。ビジネスチームや自律的な意思決定システムは、意思決定や迅速な対応に必要なすべての情報を、ソースとなるイベントが発生すると同時に、リアルタイムまたはほぼリアルタイムで必要とすることが多い。このような情報は、ストリーム処理用語でイベントと呼ばれ、ソースからデスティネーションへ非同期でリレーされ、一般的にメッセージブローカーやメッセージバスを介して行われる。組織が成長し、チームが他のチームに分岐するにつれ、メッセージブローカーの使用パターン、数、種類は増加します。合併や買収のシナリオでは、企業が新しいメッセージブローカーを継承することが多く、その場合、既存のデータエンジニアリ

Apache Spark™ 3.4 for Databricks Runtime 13.0の紹介

April 13, 2023 Xinrong Meng、ダニエル・テネドリオ、マーティン・グルンド、アラン・フォルティング、Hyukjin Kwon、ヘルマン・ファン・ヘーベル、Wenchen Fan、Ying Xiong、イム・ジョンテク、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Original Blog : Introducing Apache Spark™ 3.4 for Databricks Runtime 13.0 　 (翻訳： junichi.maruyama ) 本日、 Databricks Runtime 13.0 の一部として、Databricks上で Apache Spark™ 3.4...

集まれ！Legendary Heroes of DATA + AI !! Vol3

January 30, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか？ Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います！！さて、最終回のVol.3 では、日本マイクロソフト中里浩...

PySparkでのメモリプロファイリング

November 29, 2022 Xinrong Meng、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Original Blog : Memory Profiling in PySpark 翻訳： junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます（詳細を見る）しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングできますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを

Apache Spark™ 3.2 の概要

October 19, 2021 Gengliang Wang、Wenchen Fan、Hyukjin Kwon、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。月間のダウンロード数は 2,000万に達し、対前年比では 2 倍の成長率を示しています。Spark...

データレイクハウスによるリアルタイムPOS分析

September 8, 2021 ブライアン・スミス（Bryan Smith）、Rob Saker による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、シームレスなオムニチャネル体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。パンデミック（世界的大流行）以前は、小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、オンラインと店舗を統合したエクスペリエンスへの需要を高めるだけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。リアルタイムの情報へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大

データレイクで増分 ETL のメリットを活かす - CDC の課題など

August 30, 2021 John O'Dwyer による投稿 in データエンジニアリング

従来のデータウェアハウスでの増分 ETL といえば、CDC（change data capture、変更データキャプチャ）を利用する方法が一般的になっています。しかし、スケーラビリティ、コスト、状態の把握や機械学習との連携が困難であることなどの問題があり、この CDC により増分 ETL を実行する方法は、必ずしも理想的とはいえません。一方、データレイクでの増分 ETL は、これまで、ビッグデータのテーブルのデータ更新や変更データの特定ができないといった理由により不可能とされてきました。しかし今日、データレイクで増分 ETL を利用することが可能になりました！増分 ETL には多くのメリットがあります。効率性やシンプルさ、データサイエンティストやデータアナリストのどちらも利用できる柔軟なデータアーキテクチャの構築などが挙げられます。このブログでは、データレイクで増分 ETL を使用するメリットと、それをサポートするデータアーキテクチャについて解説します。増分 ETL とは？まず、増分 ETL とは何かを明らか

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

May 24, 2021 ルーク・ビルブロ、ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）による投稿 in プラットフォームブログ

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規／更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR（デマンドシグナルリポジトリ）は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。このようなタイプのデータをまとめる際の課題は、異なるデータの照

COVID-19 のデータセットがデータブリックスで利用可能に ― データコミュニティによる貢献

April 14, 2020 Christopher Denny による投稿 in エンジニアリングのブログ

2020年4月14日初稿、2020年4月21日更新新型コロナウイルス感染症（COVID-19）の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、米国ジョンズ・ホプキンス大学のシステム科学工学センター（CSSE）が提供するデータリポジトリが挙げられます。このデータセットは、COVID-19（2019-nCoV）について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例（郡地域）と死亡者（円で表現）の比例数を視覚的に示しています。他にも、病原体の進化をリアルタイムで追跡できる新型コロナウイルスのゲノム情報などの例があります（マウスのクリックで感染と系統が再生を再生します）。病院からのリソース使用率のモデリングの有力な例には、ワシントン大学保健指標評価研究所（IHME）によるC

広告効果測定：機械学習モデル作成による広告・マーケティングデータ分析方法（クリック予測）

July 19, 2018 Tony Cruz による投稿 in 製品

広告部門では、膨大な量の多様なマーケティングデータや Web 広告の効果を測定／分析するために、拡張性が高く柔軟なプラットフォーム・方法を必要としています。ビッグデータを活用したマーケティング効果測定（分類、クラスタリング、認識、予測、推薦などの高度な分析）によって、ビジネスの成果に結びつく、データからの深い洞察の抽出が可能となります。さまざまな種類の Web 広告の普及による多様なタイプのデータの増大に備え、Apache Sparkは、API と分散コンピューティングエンジンによってデータを容易にかつ並列に処理し、価値創出までの時間を短縮します。 Databricks レイクハウスプラットフォームは、最適化されたマネージドクラウドサービスを提供し、コンピューティング資源と、共同作業のためのワークスペースのプロビジョニングを、セルフサービスで行う手段を提供します。多くのデータサイエンティストが利用する Web サイト「Kaggle」から、広告インプレッションとクリックに関するデータ Click-Through