メインコンテンツへジャンプ

Databricks SQL の最新イテレーション、新たな性能、速度改善

Data+AI サミット 2020 Europe で 発表 した Databricks SQL は、マルチクラウドの レイクハウス アーキテクチャの運用を可能にし、データウェアハウスの性能とデータレイクの経済性を同時に実現します。Databricks では、レイクハウスを活用した知見の抽出および共有を容易にすることを目標に、データアナリスト向けに、最適化された SQL UI や主要な BI ツールの充実したサポート機能を含む、シンプルで使いやすいツールの提供に尽力しています。 Databricks SQL についても同様に、性能、使いやすさ、ガバナンスの向上を目指してイノベーションに日々取り組んでいます。その内容について、複数回のブログを通じてご紹介する予定です。今回は、その第一弾として、以下の各シナリオにおける Databricks SQL...

FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現

September 7, 2021 Greg WoodAmir Kermany による投稿 in プラットフォームブログ
科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことができません。 あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。 これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability(検索性)、Accessibility(アクセス性)、Interoperab

データレイクハウスに関する FAQ

FAQ (よくある質問) データレイクハウスとは? データレイクとは? データウェアハウスとは? データレイクハウスとデータウェアハウスの違いは何ですか? データレイクハウスとデータレイクの違いは何ですか? データアナリストは容易にデータレイクハウスを利用できますか? データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。 データレイクハウスはどのようなデータガバナンス機能をサポートしていますか? データレイクハウスは一元化する必要がありますか?それともデータメッシュに分散できますか? データメッシュとデータレイクハウスとの関係は? データレイクハウスとは? データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能(AI)やビジネスインテリジェンス(BI)を直接実行できるアーキテクチャです。 現在、企業ではデータの大部分をデータレイクに格納しています。 データレイク は、あらゆる種類のデータ(構造化、非構造化を問わない)を管理し、どんな処理ツールでも実行

クラウドスケールでのサイバーセキュリティのためのSIEMの強化

翻訳: Masahiko Kitamura オリジナル記事: Augment Your SIEM for Cybersecurity at Cloud Scale この10年間で、セキュリティインシデント・イベント管理ツール(SIEM)は、企業のセキュリティ運用における標準的なものとなっています。しかし、SIEMには常に否定的な意見もあります。しかし、クラウドが爆発的に普及したことで、「クラウドスケールの世界ではSIEMは正しい戦略なのか?HSBCのセキュリティ・リーダーは、そう考えていません。HSBCは、最近の講演 「サイバーセキュリティのためのDatabricks LakehouseでSplunkやその他のSIEMを強化する」 で、レガシーSIEMの限界とDatabricks Lakehouseプラットフォームがサイバーセキュリティをどのように変革しているかを強調しました。3兆ドルの資産を持つHSBCの話は、少し調べてみる価値がありそうです。 このブログでは、変化するITとサイバー攻撃の脅威の状況、SIEMの

Databricks on Google Cloud を 発表しました

February 17, 2021 Hiral Jasani による投稿 in お知らせ
Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。 オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

レイクハウスと Delta Lake の内部構造

September 10, 2020 Joel Minnick による投稿 in Databricks ブログ
Databricks は以前の ブログ で、企業におけるレイクハウス(LH)採用の増加状況について解説しました。このブログの内容は、技術系のオーディエンスから大きな反響がありました。多くの方がレイクハウスを次世代のデータアーキテクチャとして賞賛してくださったのですが、データレイクと何ら変わらないのではいうご意見もいただきました。そこで、Databricks のエンジニアと創業者が、データレイクとは一線を画すレイクハウスパラダイムを核とする技術的課題とソリューションについてのリサーチペーパー「Delta Lake: High-performance ACID Table Storage over Cloud Object Stores」(Delta Lake:クラウドオブジェクトストアによる高性能ACIDテーブルストレージ)を共同執筆しました。このペーパーは、大規模データベースの国際会議 VLDB2020 で受理、発表されました。リサーチペーパーの全文は こちら からダウンロードできます。 「もし私が顧客に何が欲し

Azure 環境でのモダン IIoT 分析 - Part 3

August 20, 2020 Samir GuptaLana KoprivicaHubert Duan による投稿 in 製品
モダン IIoT(産業用 IoT)アプリケーションのための Azure データ分析に関するブログを 3 部構成でお届けしています。前回の Part 2 では、フィールドデバイスからリアルタイムの IIoT データを Azure に取り込み、データレイク上で直接実行する複雑な時系列処理について解説しました。Part 3 となる今回は、機械学習を活用した予測メンテナンスで風力タービンの収益を最大にすると同時に、ダウンタイムによる機会コストを最小限に抑え、利益を最大化する手法を解説します。 モデルのトレーニングによって得られた結果とそれを視覚化したものは、以下のような Power BI レポートに表示されます。 下の図は、エンドツーエンドのアーキテクチャを示したものです。 機械学習:出力と残存耐用年数の最適化 風力タービンのような産業用資産のユーティリティ、耐用期間、運用効率における最適化は、収益とコストに多くのメリットをもたらします。このブログでは、風力タービンの収益を最大にすると同時に、ダウンタイムによる機会コスト

Delta Engine の概要

本日、Databricks は Delta Engine を発表しました。Delta Engine は、Apache Spark 完全互換のベクトル化クエリエンジンで、最新の CPU アーキテクチャに対応し、Databricks Runtime 7.0 に含まれている Spark 3.0 のクエリオプティマイザおよびキャッシング性能の最適化機能を連携させます。その相乗効果により、データレイク、特に Delta Lake で実現されたデータレイクでのクエリ性能が大幅に高速化され、 レイクハウス アーキテクチャの採用やスケーリングが容易になります。 実行性能のスケーリング...

Apache Spark 3.0 概要|Python API の強化・PySpark API の拡充など新機能搭載

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...

MLflow モデルレジストリをエンタープライズ機能に拡張

Databricks の MLflow モデルレジストリ にエンタープライズレベルの新機能が追加されました。 Databricks の統合分析プラットフォーム をご利用いただいている場合、MLflow モデルレジストリはデフォルトで有効になります。 このブログでは、モデル管理を一元化するハブとしての MLflow モデルレジストリのメリットをご紹介し、組織内のデータチームによるモデル共有やアクセス制御、モデルレジストリ API を活用した統合や検証について解説します。 MLflow によるハブの一元化が、モデルライフサイクル管理のコラボレーションを可能に MLflow には、実験の一部としての メトリクス 、 パラメータ 、 アーティファクトをトラッキングする機能...