統合データサービス

優れたパフォーマンスを備えた高品質のデータ

Databricks を使ってみる デモをスケジュールする

Databricks の統合データサービスは、データパイプライン、データレイク、データプラットフォームに、信頼性のあるスケーラブルなプラットフォームを提供します。データの流れを完全に管理して、組織全体でデータを取り込み、処理、保存、公開できるようにします。

データ全体を管理する

データの取り込み

バッチやストリーミングなど、さまざまなデータソース、データストレージ、データタイプからデータを引き出します。コネクタ、統合、および API のライブラリを活用し、あらゆるニーズに対応します。

データパイプライン

拡張性および信頼性に優れたデータパイプラインを実行します。Scala、Python、R、または SQL を使用して、分散 Spark ランタイムで処理ジョブを迅速に実行します。基盤となる計算を心配する必要はありません。

データレイク

信頼性の高いデータレイクを大規模に構築します。データレイクのコンプライアンスとセキュリティを維持しながら、データ品質を向上させ、ストレージパフォーマンスを最適化し、保存されたデータを管理します。

データコンシューマ

データレイクを、データサイエンス、機械学習、ビジネス分析の各チーム間で共有される BI ダッシュボード、本番モデルなどを始めとする、あらゆるものの真実のソースとして使用します。

製品コンポーネント

Databricks の Delta Lake

Delta Lake は、データレイクの信頼性とパフォーマンスを強化し、ライフサイクル管理を可能にします。クリーンアップのためにロールバックする必要がある不完全なジョブや、データレイクに追加された疑わしいデータ、あるいはコンプライアンスの変更に対応するためのデータの削除に頭を悩ませる必要はもうありません。

Databricks のランタイム

Databrick Runtime は、高度に最適化されたバージョンの Apache Spark 上に構築された分散データ処理エンジンであり、最大 50 倍のパフォーマンス向上を実現します。簡単なセルフサービスとコスト削減を実現するパフォーマンスで、パイプラインの構築、ジョブのスケジューリング、モデルのトレーニングを実行します。

Delta Lake の BI レポート

Delta Lake の BI レポートは、データレイクのビジネス分析を提供します。Delta Lake と SparkSQL を使用して、データレイク内の最も完全かつ最新のデータに直接接続し、好みの BI 視覚化およびレポートツールで、タイムリーなビジネスの洞察を得ることができます。

メリット

データエンジニア向け

インフラストラクチャを心配せずに拡張できる堅牢なデータパイプラインを構築し、データレイク内のブロンズ、シルバー、ゴールドテーブル全体のデータ品質を向上させながら、バッチデータソースとストリーミングデータソースを完全に統合します。

データサイエンティスト向け

簡素化されたデータエンジニアリングによって、予備的なデータサイエンスや本番化された ML モデルのためのデータをクリーンアップしたり準備したりできます。セルフサービスで利用可能な準備、トレーニング、またはスコアリングを実施する場合に、オンデマンドで自動スケーリングクラスターをスピンアップします。

ビジネスアナリスト向け

データレイクで BI/SQL レポートを実行して、できる限り完全かつ最新のデータを取得します。選択した BI ツールを使用して、データサイエンスと機械学習に使用されるのと同じ単一の真実のソースを視覚化し、ダッシュボードを作成します。

エコシステムサポート

言語

データソース

統合

視覚化ツール

お客様の事例

オーストラリアの National Health Services Directory が、Delta Lake を使用してデータ品質、信頼性、整合性をどのように改善したか

Healthdirect では、Apache Spark と Delta Lake のきめ細かなテーブル機能とデータバージョン管理によって、重複を解決し、データの冗長性を排除しています。これにより、フェデレーションおよび相互運用性サービスを通じて高品質のデータを開発、提供できるようになりました。また、高齢者ケアや予防医療などのサービスラインにおける、医療サービスの需要予測や臨床結果を改善するための分析も提供しています。

無料お試し・その他のご相談を承っております