メインコンテンツへジャンプ
ページ 1

意外に知られていないDatabricksワークフローの活用方法

August 7, 2023 Takaaki Yayoi による投稿 in
Databricksには Databricksワークフロー という機能があります。 Databricksノートブック で開発したロジックを簡単にスケジュール処理にすることができます。 しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

レイクハウス探訪 - Databricksの全貌に迫る

March 11, 2023 Takaaki Yayoi による投稿 in
本稿では、Databricksレイクハウスの構成要素を紐解き、それぞれが担う役割や提供機能にディープダイブする。 レイクハウスとは こちらの記事 でも触れているように、レイクハウスはこれまでのデータプラットフォームの課題を解決するために、データウェアハウスとデータレイクの長所を組み合わせた新たなデータプラットフォームである。以下の図に示しているように、レイクハウスではテーブルなどの構造化データ、ログやJSONのような半構造化データ、さらには、画像・音声・テキストのような非構造化データすべてを格納することができ、データウェアハウスを活用して行われていたBIや、データレイクの主なユースケースであるデータサイエンスや機械学習の取り組みなどをすべて一つのプラットフォームで実施することできる。 以降では、Databricksでこのような機能をどのように実現しているのかを説明していく。 レイクハウスのアーキテクチャ ハイレベルなレイクハウスのアーキテクチャ図を以下に示す。一番上にあるグリーンの箱は、ユースケースあるいはペルソ

データ×AIプロジェクトに携わる人々はどのようにDatabricksを活用するのか

March 10, 2023 Takaaki Yayoi による投稿 in
数多くの企業が、競争優位性を確保し、イノベーションを促進するためにデータとAIを活用しようとしている。データとAI活用のユースケースやプロジェクトは多岐にわたるが、そのようなプロジェクトに従事する人々のペルソナやスキルセットは共通している。本稿では、データ×AIプロジェクトに従事するのはどのような人たちなのか、彼らはどのような課題を抱えているのかを説明し、Databricksレイクハウスプラットフォームを活用することでどのような価値を得ているのかをサンプルシナリオを通じてデモンストレーションする。 データ×AIプロジェクトとは ビッグデータというキーワードが出現した2010年代以降、データは減るどころか指数関数的に増加しており、その重要性も増していると言える。しかし、一方でそれらのデータを全ての企業が有効に活用できているのかというと、そういう訳でもないのが実情である。 2021年のMIT Tech Review によると、データ戦略に成功している企業は全体の13%である。 このような状況を打破しようと、ここ数年で

データ分析の目的とプロセス

June 29, 2021 Takaaki Yayoi による投稿 in
こちらは データブリックスユーザー会 の第一回イベントで発表された内容となります。 こちら からサンプルノートブックをダウンロードできます。 データ分析はビジネス上の課題を解決するための手段の 1 つです。 データ分析というと予測モデル構築が脚光を浴びがちですが、データをビジネス価値につなげる長い道のりのほんの一部です。 この記事では、データ分析を通じでビジネス価値創出につなげるために辿るプロセスを、実例を含めてご紹介します。 データ分析の(終わり無き)長いプロセス 個人的経験を踏まえたものですが、データ分析プロジェクトは以下のフローになるかと思います。最後までたどり着けないプロジェクトもたくさんありました。 ビジネス課題の特定 データ分析における仮説の立案 データ分析アプローチの検討 データソースの調査、分析データの入手 分析データの読み込み 探索的データ分析(EDA: Exploratory Data Analysis) 分析データの前処理 分析アルゴリズムの検討...

Databricksのファイルシステム

June 17, 2021 Takaaki Yayoi による投稿 in
こちら からサンプルノートブックをダウンロードできます。 Databricksでファイルを取り扱う際には、Databricks File System (DBFS) を理解する必要があります。 本記事では、DBFSの概要をご説明するとともに、具体的な使用例をご説明します。 Databricks File System (DBFS) Databricks File System (DBFS) はDatabricksのワークスペースにマウントされる分散ファイルシステムです。Databricksクラスターから利用することができます。DBFSはクラウドのオブジェクトストレージを抽象化するものであり、以下のメリットをもたらします: オブジェクトストレージ(S3/Azure Blob Storageなど)追加の認証情報なしにオブジェクトストレージにアクセスすることができます。 ストレージURLではなく、ディレクトリ、ファイルの文法に従ってファイルにアクセスできます。 ファイルはオブジェクトストレージで永続化されるので、クラス