レイクハウスを市民データサイエンティストに — 8080 Labs 買収

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。

このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databricks にとって、ローコード/ノーコードの領域への戦略的な第一歩となります。Databricks では 2020 年に Redash を買収しており、Redash による使いやすいダッシュボードおよび視覚化機能と、8080 Labs による bamboolib の統合を通じて、市民データサイエンティストを含む多くのユーザーがデータと AI を利活用しやすいプラットフォームを提供します。Databricks では、今後も、データに関わる誰もがイノベーションへの道を発見できるよう、支援を続けます。

bamboolib は、Python コード(Excel のマクロを想像してみてください)をエクスポートする、拡張可能な GUI を提供します。ユーザーによるコーディングなしで、高速かつシンプルなデータ探索と変換を可能にします。UI ベースのワークフローにより、市民データサイエンティストとエキスパートの両方が容易に Databricks にアクセスできるようになり、社員のオンボーディングやトレーニングのコストを削減できます。ノーコードのユースケースには次のようなものがあります。

データの準備:数回のクリックで未加工データを整備して構造化された形式に変換し、どんな下流工程のユースケースにも使用できるようにします。

<strong>データの準備:</strong>数回のクリックで生データを整備して構造化された形式に変換し、どんな下流工程のユースケースにも使用できるようにします。

データの変換:UI 上で複雑なデータセットを簡単に集計、変換できます。

<strong>データの変換:</strong>UI 上で複雑なデータセットを簡単に集計、変換できます。

データの可視化:Plotly Express でグラフをすばやく作成、エクスポートすることで、10 倍高速なデータの可視化を活用できます。

<strong>データの可視化:</strong>Plotly Express でグラフをすばやく作成、エクスポートすることで、10 倍高速なデータの可視化を活用できます。

データの探索:Explore DataFrame 機能を用いて、数分でデータ探索を行います。

<strong>データの探索:</strong>Explore DataFrame 機能を用いて、数分でデータ探索を行います。

今後のロードマップでは、bamboolib のノーコード機能を Databricks レイクハウスプラットフォームに統合することを計画しています。

ローコード/ノーコードで市民データサイエンティストをサポート

技術チームだけに限らず、誰もがデータと AI を活用してビジネスインパクトを生み出したいと考えています。これにより、データに基づいた知見を議論の場にもたらせる人材を表す「市民データサイエンティスト」が重要な機能となりました。市民データサイエンティストは、あらゆる役職でさまざまな組織に所属しており、その組織とデータサイエンスチーム、あるいは機械学習(ML)チームとの橋渡し役を担います。

現状、多くの市民データサイエンティスト向けツールは単純なデータ探索機能を提供していますが、それ以外はほとんどサポートしていません。そのため、ML ユースケースで実行するには、依然として専門のエンジニアが必要になります。しかし、組織が必要としているのは ML モデルの構築や本格運用のために必要となる専門性を民主化し、参入障壁を低くするソリューションです。

新たなアプローチによるデータ + AI アクセシビリティの拡張

Databricks は、市民データサイエンティストがコードを一行も書くことなしに、影響力のあるデータサイエンスの実行と AI ユースケースに対応可能な独自のアプローチでこのジレンマを解決しています。これに先駆けて、Databricks は 2021年前半に AutoML をリリースしました。AutoML は、前処理、特徴量エンジニアリング、モデルトレーニング、モデルチューニングにおける全ての負荷を自動化し、データに熱意を持って取り組むユーザーがあらゆる規模で ML モデルを迅速に構築、およびデプロイできるよう支援します。AutoML は、完全に編集可能なノートブックによるベースラインモデルを生成します。これにより、市民データサイエンティストは迅速に有用な結果を得られます。bamboolib と Databricks の AutoML の相乗効果で、組織内の誰もが専門家に頼ることなくデータを準備し、データ分析や ML のような下流工程のユースケースを実行できます。

次のステップ

Databricks は、EMEA 地域での採用に力を入れているこのときに、8080 Labs の共同創業者である Florian Wetschoreck と Tobias Krabel をチームに迎えられることを嬉しく思っています。

Databricks レイクハウスプラットフォームへの bamboolib 機能の統合は、2022年前半を予定しています。関連するソリューションと詳細については、今後のブログ記事でご紹介します。ぜひご期待ください。

Databricks 無料トライアル 使ってみる

ご登録