Databricks ブログ

ページ 63

データブリックス、ガートナー2021 年 MQ クラウドデータベース管理システム部門（DBMS）のリーダーに

December 16, 2021 Joel Minnick による投稿 in プラットフォーム

データブリックスは、ガートナーのマジック・クアドラント 2021 年「クラウドデータベース管理システム（DBMS）」部門においてリーダーに位置づけられました。これにより、データブリックスは、「クラウドデータベース管理システム（DBMS）」および「データサイエンス・機械学習プラットフォーム」の両部門のリーダーとして評価された唯一のクラウドネイティブベンダーとなりました。レポートは、こちらから無償でダウンロードできます。リーダーとして位置づけられることは重要ですが、何を達成したことにより得られた評価なのかがより重要だと私たちは考えています。複数部門のマジック・クアドラント（MQ）で同時に高評価を受けるベンダーは他にも存在します。しかし、そのようなベンダーの多くは、別々の製品によって対象部門の評価基準を満たしているにすぎません。すなわち、問題解決に対する断片的なアプローチに留まっており、シンプルで一元的なエクスペリエンスをお客様に提供するものではありません。データブリックスは、オープンソースとオープンスタンダ

Databricks と同等の価格性能を持つという Snowflake の主張に対する反論

November 16, 2021 モスタファ・モクタール、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in Databricks ブログ

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、データウェアハウスの公式世界記録を更新したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとしてオンラインで公開されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター（BSC）によるベンチマークテストの結果を共有し、Databricks SQL が競合...

データベースのベンチマーク情報を公開 ― 反競争的 DeWitt 条項を不要に

November 8, 2021 Justin Olsson、Reynold Xin（レイノルド・シン）による投稿 in Databricks ブログ

Databricks では、テクノロジーについて語るときにしばしば「the future is open」（未来はオープン）というフレーズを使用します。オープンなデータアーキテクチャがプロプライエタリなアーキテクチャを凌駕するという私たちの信念を表現したものです（Databricks は先日、 TPC-DS の公式記録を更新しました）。「オープン」であるべきは、コードだけではありません。業界全体における経営手法や討論も含まれます。多くのテクノロジー企業が、契約の中に DeWitt 条項を入れることでベンチマーク情報の公開を禁じ、自社製品のパフォーマンスに関する情報を制御しようとしています。しかし、私たちは、このような慣行はお客様のためにならず、イノベーションの障壁となる、そろそろ廃止すべきだと考えています。そこで Databricks では、サービス規約から DeWitt 条項を削除し、業界の他の企業にも同様の行動を呼びかけています。 DeWitt 条項とは Wikipedia には次のように記載されています

Databricks が DWH パフォーマンスの公式記録を更新

November 2, 2021 Reynold Xin（レイノルド・シン）、モスタファ・モクタールによる投稿 in Databricks ブログ

Databricks は本日、「 Databricks SQL 」がデータウェアハウス（DWH）のベンチマークである TPC-DS の 100TB クラスで世界記録を更新したことを発表しました。 Databricks SQL は、これまでの世界記録の 2.2 倍のパフォーマンスを達成。他の多くのベンチマーク達成ニュースとは異なり、この記録は TPC 評議会によって正式に認められています。 These results were corroborated by...

Apache Spark™ 3.2 の概要

October 19, 2021 Gengliang Wang、Wenchen Fan、Hyukjin Kwon、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。月間のダウンロード数は 2,000万に達し、対前年比では 2 倍の成長率を示しています。Spark...

空間分割 - デカルト積を回避しながらポリゴンデータの結合・解析を効率化する方法

October 11, 2021 ミロシュ・コリック、ロバート・ウィフィン、Pritesh Patel、Charis Doidge、Steve Kingston、Linda Sheard による投稿 in エンジニアリングのブログ

この記事は、オードナンス・サーベイ、Microsoft、データブリックスの共同執筆によるものです。オードナンス・サーベイのシニアデータエンジニア Charis Doidge 氏、同シニアデータサイエンティスト Steve Kingston 氏、Microsoft 高度分析・AI 担当クラウドソリューションアーキテクト Linda Sheard 氏のご協力に感謝します。このブログでは、オードナンス・サーベイ（Ordnance Survey、英国陸地測量部）、データブリックス、Microsoft が共同で取り組む British National Grid（BNG）を用いた空間分割について解説します。オードナンス・サーベイは、公共部門地理空間協定（Public Sector Geospatial...

Databricks Repos 一般公開、Files の新機能も一般プレビュー

October 7, 2021 Ka-Hing Cheung、Vaibhav Sethi による投稿 in プラットフォーム

Databricks Repos は、一般プレビューとして利用可能になって以来、Databricks の数千のユーザーの皆様によって、開発やプロダクションワークフローの標準化に活用いただいています。その Databricks Repos を本日一般公開しました。 Databricks Repos は、データチームが常に抱えている課題を解決するために開発されました。データエンジニア、データサイエンティストが使用しているツールの多くは、Git のバージョン管理システムとの連携が不十分、あるいは全くありません。コードをレビュー、コミットするだけでも、数多くのファイル、ステップ、UIをナビゲートする必要がありました。これでは時間がかかるだけでなく、エラーを発生しやすくします。 Repos は、Databricks と一般的な Git プロバイダーを直接リポジトリレベルで統合することで、データの実践者は新規の Git リポジトリや既存リポジトリをクローンの作成、Git オペレーションの実行、開発のベストプラクティスに従うこ

時系列予測ライブラリ Prophet と Spark との連携

October 6, 2021 Masahiko Kitamura による投稿 in ソリューションアクセラレータ

1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe

レイクハウスを市民データサイエンティストに — 8080 Labs 買収

October 6, 2021 Clemens Mewald、Bharath Gowda、Ari Paul による投稿 in プラットフォーム

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databrick

Terraform による Databricks ワークスペースの環境構築（AWS 編）

September 28, 2021 Masahiko Kitamura による投稿 in チュートリアル

Databricks ワークスペースは、1 つの独立した Databricks 環境を提供します。そのため、要件によっては複数のワークスペースを同時に作成・運用するケースもあります。こうした状況では、Databricks ワークスペースを Code として管理（IaC）し、自動化することで運用がスムーズになります。 Databricks では、運用現場で求められる機能をツールとして提供する Labs Project の一環で、 Databricks Terraform Provider を公開しています。このドキュメントでは、Terraform を用いて AWS 上に...