データエンジニアリングのための Databricks

高速かつ信頼性の高いデータパイプラインの構築

Apache Spark™ を搭載したクラウド最適化プラットフォーム

Databricks Runtime は、Databricks の統合分析プラットフォームの中核です。
高度に最適化された Spark クラスター上に構築され、データ処理性能を最大 5 倍に向上させます。

Databricks の IO

垂直統合型スタックを活用して I/O 層と処理層を最適化し、クラウドでの Spark の性能を大幅に改善

Databricks のサーバーレス

サーバーレスアーキテクチャはコンピューティングリソースの自動構成と拡張によってインフラストラクチャを民主化し、コストを大幅に削減しながら、クラス最高のパフォーマンスを実現

クラウドで完全に管理

ビッグデータインフラストラクチャの複雑さを抽象化したクラウドネイティブプラットフォームにより、革新的な製品を構築するための、弾力性に優れた信頼できる高性能プラットフォームを実現


他の計算エンジンを凌駕する Databricks Runtime

AWS 上の Vanilla Apache Spark より
5 倍高速
104 クエリのランタイム合計
(単位:秒 — 少ない方が良い)

AWS 上の Apache Presto より
8 倍高速
62 クエリのランタイム相乗平均
(単位:秒 — 少ない方が良い)

Cloudera を介したオンプレミスの Impala より
3 倍高速
CPU コアによって正規化された 77 Impala クエリのランタイム合計
(単位:秒 — 少ない方が良い)


Databricks によって、データパイプラインのパフォーマンスを 10 倍向上させながら、新しい機能を市場に投入できました。現在では、マルチテラバイトの Spark クラスターが当社の本番運用パイプライン全体を強化しています。

MyFitnessPal のロゴ

チョル・リー、MyFitnessPal のデータエンジニアリング & サイエンス部門ディレクター

Databricks でデータパイプラインの性能を改善する方法を学ぶ

ETL から本番運用までのプロセスを合理化

チーム間のコラボレーション

対話型ワークスペースを使用することで、データエンジニアリング、データサイエンス、およびビジネスの内部あるいはこれら全体での、リアルタイムのコラボレーションおよび洞察の共有を促進

本番運用ワークフロー

統合プラットフォームにより、データインジェストと ETL から、データ探索とモデル構築、モデルおよびデータを元に開発した製品の本番運用化まで、エンドツーエンドのワークフローを合理化

すべての分析を統合

バッチ、アドホック、機械学習、ディープラーニング、ストリーム処理、グラフなど、さまざまな種類の分析にシームレスに移動

堅牢な統合

組み込みのコネクタを使用してさまざまな AWSツールやデータストアに接続し、他のデータエンジニアリングサービスと統合して、包括的な API を活用しながら CI/CD を促進


俊敏なイノベーションワークフローを持つことは、McGraw-Hill Education にとって非常に重要です。Databricks の統合分析プラットフォームは、
当社のエコシステムの中心であり、イノベーションパイプラインとワークフローを支えてくれています。

サムネイル(McGraw-Hill Education のロゴ)

アルフレッド・エッサ、McGraw-Hill Education のリサーチおよびデータサイエンス部長

Databricks で開発ワークフローを合理化してプロセス効率を向上させる方法

Spark でエンタープライズデータを保護

強力なデータ暗号化

保存データおよび移動中のデータに対してクラス最高の保護を提供

監視と監査

包括的な監査ログを利用して問題の監視およびトラブルシューティング

すべての分析を統合

ファイル、クラスター、コード、アプリケーションのデプロイ、ダッシュボードなど、エンタープライズデータインフラストラクチャの各構成要素に対するきめ細かな管理アクセス

統合された ID 管理

SAML 2.0 と Active Directory を介したエンタープライズ ID プロバイダーとのシームレスな統合


Databricks の最高水準セキュリティの維持方法

Spark の専門知識が当社の強みです

エキスパートサポート

カリフォルニア大学バークレー校で、(後に Apache Spark になる)Spark の研究プロジェクトを開始したチームによる優れたサポート

専門的なサービス

ソリューション設計およびワークロード最適化サービスにより、Databricks と Spark を使用してイノベーションを迅速化

いつでも利用可能

24 時間体制で対応し、本番層のサポートは 1 時間という短い応答時間で問題を迅速に解決

技術リソース

ドキュメント、ベストプラクティス、ユーザーガイド、およびその他の技術資料のオンラインライブラリ


Databricks のサポート品質やサポートの方法がチームの成功につながっており、当社のビジネスにとって極めて重要な役割を果たしています。

Hotels.com のロゴ

マット・フライヤー、Hotels.com の VP 兼最高データサイエンス責任者

Spark の専門家から必要なサポートを得る

 サポ-トの詳細

インフラストラクチャ管理のスマート化で TCO を削減

パフォーマンスの向上

クラウド最適化クラスターを使用することで、短時間でジョブを完了でき、クラウドコンピューティングのコストを削減

フルマネージド型クラスター

複雑な Spark インフラストラクチャの構築、構成、および保守を行うための時間のかかる作業を回避することで、コスト削減を推進

使った分だけ支払う

秒単位の請求で、コストを抑えることが可能

データエンジニアリングの料金設定

データエンジニアリングの本番ワークロードを対象とした低価格の料金設定
詳しくはこちらをご覧ください >


Databricks は、ディープデータ処理や分析を必要とする場合に頼りになるシステムです。わずかな時間で、運用コストをかけずにデータ処理速度を 4 倍に向上させることができました。

Eyeview のロゴ

ガル・バーニー、Eyeview の CTA

Databricks で TCO を削減する方法