メインコンテンツへジャンプ

データブリックス、ガートナー2021 年 MQ クラウドデータベース管理システム部門(DBMS)のリーダーに

December 16, 2021 Joel Minnick による投稿 in
データブリックスは、ガートナーのマジック・クアドラント 2021 年「クラウドデータベース管理システム(DBMS)」部門においてリーダーに位置づけられました。これにより、データブリックスは、「クラウドデータベース管理システム(DBMS)」および「データサイエンス・機械学習プラットフォーム」の両部門のリーダーとして評価された唯一のクラウドネイティブベンダーとなりました。 レポートは、 こちら から無償でダウンロードできます。 リーダーとして位置づけられることは重要ですが、何を達成したことにより得られた評価なのかがより重要だと私たちは考えています。複数部門のマジック・クアドラント(MQ)で同時に高評価を受けるベンダーは他にも存在します。しかし、そのようなベンダーの多くは、別々の製品によって対象部門の評価基準を満たしているにすぎません。すなわち、問題解決に対する断片的なアプローチに留まっており、シンプルで一元的なエクスペリエンスをお客様に提供するものではありません。 データブリックスは、オープンソースとオープンスタンダ

レイクハウスを市民データサイエンティストに — 8080 Labs 買収

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。 このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収 しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databrick

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in
学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス(カナダ)や、東京(日本)、チューリッヒ(スイス)、杭州(中国)など世界中に存在し、オン/オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。 「Beacon」(灯台や標識塔)という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

公開プレビュー:Databricks ジョブによる複数タスクのオーケストレーション

ドキュメントを読む 企業におけるビジネスインテリジェンス(BI)や、人工知能(AI)への取り組みの強化に伴い、シンプルで明確かつ信頼性の高いデータ処理タスクの オーケストレーション へのニーズが高まっています。Databricks のユーザーの選択肢はこれまで、複数のタスクを1つの Notebook で実行する、もしくは、別のワークフローのツールを使用して、ユーザーの環境全体をさらに複雑にするしかありませんでした。 本日、私たちは、タスクのオーケストレーションをサポートする Databricks ジョブのパブリックプレビューを発表しました。この機能により、複数タスクを有向非巡回グラフ(DAG)として実行することが可能になります。ジョブとは、Databricks のクラスタでアプリケーションを実行する非インタラクティブな方法です。例えば、ETL ジョブやデータ分析タスクをすぐに実行したり、スケジュールを設定して実行したりします。このジョブ内で複数のタスクをオーケストレーションする機能は、追加のコストは不要で、データ

Databricks on Google Cloud を 発表しました

February 17, 2021 Hiral Jasani による投稿 in
Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。 オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

Delta Engine の概要

本日、Databricks は Delta Engine を発表しました。Delta Engine は、Apache Spark 完全互換のベクトル化クエリエンジンで、最新の CPU アーキテクチャに対応し、Databricks Runtime 7.0 に含まれている Spark 3.0 のクエリオプティマイザおよびキャッシング性能の最適化機能を連携させます。その相乗効果により、データレイク、特に Delta Lake で実現されたデータレイクでのクエリ性能が大幅に高速化され、 レイクハウス アーキテクチャの採用やスケーリングが容易になります。 実行性能のスケーリング...

Apache Spark 3.0 概要|Python API の強化・PySpark API の拡充など新機能搭載

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...

Databricks Connect:ホスト型 Apache Spark™ をアプリ、マイクロサービスに

June 14, 2019 Eric Liang による投稿 in
Databricks Connect は、ネイティブな Apache Spark API を任意の Notebook、IDE、カスタムアプリから利用可能にするための新たなライブラリです。今回はその概要をご説明します。 概要 ここ数年、Apache Spark 向けにさまざまなカスタムアプリケーションコネクタが開発されています。spark-submit、REST ジョブサーバー、Notebook ゲートウェイなどのツールなどが含まれます。しかし、これらのツールには多くの制限があります。以下はその一部です。 汎用的でなく、特定の IDE や Notebook でのみ動作するものが多い。 アプリケーションを Spark クラスタ内でホストして実行することが必要な場合がある。 Spark...

Koalas:pandas から Apache Spark への容易な移行 – データラングリング(カテゴリ変数の導入)

April 24, 2019 Tony LiuTim Hunter による投稿 in
データブリックスは本日開催された Spark + AI Summit において、PySpark の DataFrame API を拡張してpandas と互換性を持たせる新しいオープンソースプロジェクトの Koalas(コアラズ) を発表しました。 Python のデータサイエンスはここ数年で急速に拡大し、pandas は今ではエコシステムの要となっています。データサイエンティストはデータセットを入手する場合、pandas を使って検証します。pandas はデータラングリング(データクレンジング/データクリーニングおよびデータ整形)や分析に最適のツールです。実際に、pandas の read_csv は、データサイエンスに取り組む多くの学生が最初に学習する実行コマンドです。 pandas に課題があるとすれば、ビッグデータのスケーリングに適していないことです。pandas...

大規模なデータレイクのための Delta タイムトラベルのご紹介

February 4, 2019 Burak YavuzPrakash Chockalingam による投稿 in
実験再現、ロールバック、データ監査のためのデータバージョニング Apache Spark の上に構築された次世代統合分析エンジンである Databricks Delta Lake にタイムトラベル機能を導入し、全てのユーザーの皆様にお届けできることを嬉しく思います。この新機能により、Delta は データレイク に保存されているビッグデータを自動的にバージョンアップし、そのデータの任意の履歴バージョンにアクセスすることができます。この一時的なデータ管理により、監査、誤った書き込みや削除があった場合のデータのロールバック、実験やレポートの再現が容易になり、データパイプラインを簡素化することができます。お客様の組織では、分析に必要なクリーンで一元化されたバージョン管理されたビッグデータリポジトリを、お客様自身のクラウドストレージで標準化することが可能になります。 データ変更に伴う共通の課題 データ変更の 監査: データの変更を監査することは、データコンプライアンスの観点からも、データが時間とともにどのように変化したか