Databricks の FAQ

基本


ビジネスでは、すべてのデータに金が含まれていることが分かっています。チームの仕事はそれを見つけ出すことです。しかし、扱いにくいツールや設定の難しいインフラに囲まれている状態では、その仕事をうまくこなすことはできません。本当はビジネスで現在何が起こっているのかを解明してヒーローになりたいのに、時間はツールとの格闘にばかり費やされています。

Databricks はビークデータを簡素化するために構築されました。Apache Spark™ は、データパイプラインを構築するための統合フレームワークを提供することで、この使命を達成するための大きな一歩を踏み出しました。Databricksは、Spark を中心に構築されたゼロ管理クラウドプラットフォームを提供することで、これをさらに推進します。Spark では、1) 完全マネージド型の Spark クラスター、2) 調査および視覚化のための対話型ワークスペース、3) 運用パイプラインスケジューラー、4) お使いの Spark ベースのアプリケーションをk強化するプラットフォームを提供しています。もうデータの追跡に頭を悩ませる必要はありません。これからはビジネスに直結する回答を見つけることに注力できるのです。

データサイエンティストやエンジニアから、開発者やデータアナリストに至るまで、ビッグデータから迅速かつ効率的に価値を引き出したい人に最適です。対話型のワークスペースの提供により、Spark のネイティブの R、Scala、Python、SQL インターフェイスや、リモートプログラムアクセス用 REST API、オフラインで開発された任意の Spark ジョブを実行する機能、BI やドメイン固有のツールといったサードパーティ製アプリケーションに対するシームレスなサポートが可能になりました。このように Databricks によって、ユーザーは、最も使いやすいインターフェイスを通じてデータおよび情報を活用できるようになりました。

Databricks は、金融サービス、医療、小売、メディア&エンターテインメント、公益事業など、さまざまな分野の企業で使用されています。コア ETL、データの発見と深掘り、データウェアハウス、データ製品のデプロイ、ダッシュボードを使用した社内外向けの情報の公開など、幅広いユースケースで、当社のプラットフォームをご利用いただいています。

そのとおりです。企業は大量のデータを蓄積していますが、ビッグデータの分析プロセスには、インフラストラクチャ管理、プロビジョニング上のボトルネック、取得や管理にかかる高額のコストなど、多くの障壁が存在します。Databricks は、これらすべての障害を取り除くように設計されています。私たちはビッグデータを企業にとって扱いやすいものにし、ビジネスアプリケーションの Excel のように、一般的な存在にしたいと考えています。

Databricks は、バークレー大学で Spark の研究プロジェクトを開始したチームによって開発され、後に Apache Spark™ になりました。Databricks は、オープンソースコミュニティと連携してプロジェクトの拡大を続けています。当社は、他のどの企業よりも多くのコードを Spark に提供してきました。また、Spark の開発者、システムインテグレーター、アプリケーション、ディストリビューター、トレーナー向けに、Databricks 認定プログラムも提供しています。さらに当社では、データサイエンス、エンジニアリング、ビジネスを統合してイノベーションを加速する、統合分析プラットフォームの Databricks も開発しました。

可用性


Databricks の料金については、料金ページでご確認ください。

はい、利用可能です。現在、業種やユースケースを問わず多くの企業が Databricks を活用して、大規模な運用ジョブを実行しています。こちらから開始してください。

はい。Databricks なら、Apache Spark アプリケーションの開発、テスト、およびデプロイを簡単に実施できます。また ODBC/JDBC 接続、標準の Spark API、およびサードパーティ製アプリケーション用のネイティブ REST API が提供されています。

テクニカル


Databricks は現在、ブラウザベースのファイルアップロード、Azure Blob Storage、AWS S3、Azure SQL Data Warehous、Azure Data Lake Store、Cosmos DB などの NoSQL データストア、Cassandra、Elasticsearch 、JDBC データソース、HDFS、Sqoop、および Apache Spark によってネイティブにサポートされている他のさまざまなデータソースをサポートしています。

セキュリティと耐障害性は Databricks にとって最優先事項であり、当社の製品は適切な認証および隔離メカニズムによってゼロから構築されています。詳しくは、セキュリティページをご覧ください。

Databricks は 100% Apache Spark を実行しています。そのため、その上で開発されたコードやアプリケーションは、Apache Spark に対応する任意のディストリビューション (例: Databricks 認定ディストリビューション) で実行可能です。

デプロイメント


現在、Databricks は Microsoft Azure と Amazon AWS で利用可能です。

はい。Databricks は各アカウントの VPC にすべてがデプロイされ、セキュリティと隔離の追加レイヤーが提供されます。

現在のところ、実行できません。ただし、当社では他のデプロイメントシナリオも継続的に研究しており、そこにはオンプレミスのクラスターも含まれています。

セキュリティ


Databricks のユーザーは、それぞれの認証情報を使用して、自分のデータストアからのデータの読み取りやデータストアへのデータの保持を実施します。

いいえ、その必要はありません。ほとんどの場合、現在のデータソースからデータにアクセスできます。

Databricks アカウントにユーザーを追加することで、データやノートブックへのアクセスを管理できます。Databricks アカウントに追加されると、プラットフォームにアクセスできるようになります。

詳しい情報は、セキュリティページをご覧ください。

Databricks では、インフラストラクチャをご自身専用にデプロイするオプションをご用意しています。シングルテナントモードにすると、すべての Databricks サービスはそのユーザー専用の VPC で実行され、他のユーザーから完全に隔離されます。また VPC と Databricks VPC をピア接続して、AWS アカウントでクラスターに接続し、起動することができます。

当社のお客様は、データのコントロールと所有の権利を有しています。詳しくは、Databricks のサービスチームにお問い合わせくださ。またプライバシーポリシーもご覧ください。

Databricks は、すでに業界のベストプラクティスに基づいて独自のセキュリティアーキテクチャを実装しています。さらに SANS のインターネットセキュリティ対策トップ 20、コンセンサス監査ガイドライン、NIST ガイドライン、そしてインターネット標準といった、より高い基準を達成するよう継続的に取り組んでいます。

また Databricks では、Databricks の完全性に影響を及ぼす可能性があるアプリケーションまたはネットワークレベルのセキュリティ問題を特定する、セキュリティ機能を標準で保持しています。

AWS offers a business continuity program (AWS business continuity and disaster recovery), and Databricks is designed to run out of multiple regions and multiple availability zones, or data centers.

当社では、包括的なセキュリティ入門書をご用意しています。また、sales@databricks.com でお問い合わせいただくこともできます。