メインコンテンツへジャンプ
<
ページ 61
>

Databricks が DWH パフォーマンスの公式記録を更新

Databricks は本日、「 Databricks SQL 」がデータウェアハウス(DWH)のベンチマークである TPC-DS の 100TB クラスで世界記録を更新 したことを発表しました。 Databricks SQL は、これまでの世界記録の 2.2 倍のパフォーマンスを達成。 他の多くのベンチマーク達成ニュースとは異なり、この記録は TPC 評議会によって正式に認められています。 These results were corroborated by...

Apache Spark™ 3.2 の概要

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。 月間のダウンロード数は 2,000万 に達し、対前年比では 2 倍の成長率を示しています。Spark...

空間分割 - デカルト積を回避しながらポリゴンデータの結合・解析を効率化する方法

この記事は、オードナンス・サーベイ、Microsoft、データブリックスの共同執筆によるものです。オードナンス・サーベイのシニアデータエンジニア Charis Doidge 氏、同シニアデータサイエンティスト Steve Kingston 氏、Microsoft 高度分析・AI 担当クラウドソリューションアーキテクト Linda Sheard 氏のご協力に感謝します。 このブログでは、オードナンス・サーベイ(Ordnance Survey、英国陸地測量部)、データブリックス、Microsoft が共同で取り組む British National Grid(BNG)を用いた空間分割について解説します。 オードナンス・サーベイは、 公共部門地理空間協定 (Public Sector Geospatial...

Databricks Repos 一般公開、Files の新機能も一般プレビュー

Databricks Repos は、一般プレビューとして利用可能になって以来、Databricks の数千のユーザーの皆様によって、開発やプロダクションワークフローの標準化に活用いただいています。その Databricks Repos を本日一般公開しました。 Databricks Repos は、データチームが常に抱えている課題を解決するために開発されました。データエンジニア、データサイエンティストが使用しているツールの多くは、Git のバージョン管理システムとの連携が不十分、あるいは全くありません。コードをレビュー、コミットするだけでも、数多くのファイル、ステップ、UIをナビゲートする必要がありました。これでは時間がかかるだけでなく、エラーを発生しやすくします。 Repos は、Databricks と一般的な Git プロバイダーを直接リポジトリレベルで統合することで、データの実践者は新規の Git リポジトリや既存リポジトリをクローンの作成、Git オペレーションの実行、開発のベストプラクティスに従うこ

時系列予測ライブラリ Prophet と Spark との連携

1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe

レイクハウスを市民データサイエンティストに — 8080 Labs 買収

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。 このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収 しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databrick

Terraform による Databricks ワークスペースの環境構築(AWS 編)

September 28, 2021 Masahiko Kitamura による投稿 in
Databricks ワークスペースは、1 つの独立した Databricks 環境を提供します。 そのため、要件によっては複数のワークスペースを同時に作成・運用するケースもあります。 こうした状況では、Databricks ワークスペースを Code として管理(IaC)し、自動化することで運用がスムーズになります。 Databricks では、運用現場で求められる機能をツールとして提供する Labs Project の一環で、 Databricks Terraform Provider を公開しています。 このドキュメントでは、Terraform を用いて AWS 上に...

臨床データによる腫瘍学の知見抽出に NLP を活用

このブログで参照しているソリューションアクセラレータのノートブックは、 オンライン でご参照いただくか、ノートブックを ダウンロード してお使いの Databricks アカウントにインポートすることで、すぐにご利用いただけます。 米国における 死亡原因 および疾病原因の第 1 位は悪性腫瘍(がん)です。その数は驚異的で、今年、米国では新たに診断される がん患者は約 200 万人 になると予想されています。また、米国における医療費は、悪性腫瘍(がん)に関連するものが大部分を占めており、その額は、2020 年で 2,000 億ドルを超えると推定されています。このため、バイオ医薬品業界では、がん治療のための創薬に特に注力しています。2019 年、2020 年だけでも、FDA によって およそ...

Part 1:Databricks Notebook と Azure DevOps で Databricks に CI/CD を実装

ブログ内に掲載されているコードの詳細は、 こちら からご覧ください。 このブログは、エンドツーエンドの MLOps ソリューションを Databricks Notebook と Repos API を使用して設定、構築する方法を解説するブログシリーズの Part 1 です。今回は、Notebook をベースとした Databricks における CI/CD(継続的インテグレーション/継続的デリバリ)フレームワークについて解説します。継続的インテグレーション(CI)は Microsoft Azure DevOps のエコシステムと、継続的デリバリ(CD)は...

アシュリオン社、レイクハウスでビッグデータのための ETL 導入 – データマート設計など

September 16, 2021 Tomasz Magdanski による投稿 in
この記事は、アシュリオン(Asurion)社エンジニアリング部門シニアディレクター Tomasz Magdanski 氏による特別寄稿によるものです。 アシュリオン(Asurion)社では、デバイスの保険やインストール、修理、交換、24 時間 365 日のサポートの提供を通じて、お客様がセキュアに、かつ快適に最新テクノロジーを利用できるよう支援しています。1 万人のエキスパートで構成されるサポートチームが、世界中の約 3 億のお客様の日々のニーズに電話やオンライン、対面で対応しています。サポート内容は、スマートフォンの即日交換、快適なストリーミングや接続を可能にするための技術的な問題の解決など多岐に及びます。 アシュリオン社では、種類や購入元にかかわらず、テクノロジーに常にアクセスできる環境、テクノロジーを最大限に活用できる環境をお客様に提供できるよう努めています。 レイクハウスで大規模 ETL を導入した背景と課題 アシュリオン社のエンタープライズデータサービスチームでは、全組織から 3,500 以上のデータ資