メインコンテンツへジャンプ

クラスターポリシーのGeneral Availabilityのお知らせ

Original Blog : Announcing General Availability of Cluster Policies 翻訳: junichi.maruyama この度、クラスターポリシーが一般公開されることになりました。 Why Databricks cluster policies? Databricksのクラスタポリシーによって、管理者は以下のことが可能になります: エンドユーザーのクラスタ構成を制御することで、コストを抑えることができます。 エンドユーザーによるクラスタ作成の効率化 コスト管理のためにワークスペース全体にタグ付けを強制する。 Databricksは、個人利用、共有利用、ジョブという3つの一般的なユースケースに対して、あらかじめ設定されたクラスターポリシーを提供します。管理者は、独自のポリシーをカスタマイズしたり、あらかじめ設定されたオプションを編集することも可能です。 How to...

レイクハウス用データクリーンルームの紹介

翻訳: Masahiko Kitamura オリジナル記事: Introducing Data Clean Rooms for the Lakehouse Lakehouseのデータクリーンルームを発表することで、企業はプライバシーを保護した方法で、顧客やパートナーとあらゆるクラウド上で簡単にコラボレーションできるようになります。データ・クリーン・ルームの参加者は、データのプライバシーを維持しながら、既存のデータを共有、結合し、データ上でPython、R、SQL、Java、Scalaなどあらゆる言語で複雑なワークロードを実行することができます。 外部データの需要がかつてないほど高まる中、組織はデータ主導のイノベーションを促進するため、データを安全に交換し、外部データを利用する方法を模索している。歴史的に、組織はデータ共有ソリューションを活用してパートナーとデータを共有し、データのプライバシーを守るために相互信頼に依存してきた。しかし、一度共有されたデータの管理は放棄され、さまざまなプラットフォームでデータがパート

データブリックス、ガートナー2021 年 MQ クラウドデータベース管理システム部門(DBMS)のリーダーに

December 16, 2021 Joel Minnick による投稿 in
データブリックスは、ガートナーのマジック・クアドラント 2021 年「クラウドデータベース管理システム(DBMS)」部門においてリーダーに位置づけられました。これにより、データブリックスは、「クラウドデータベース管理システム(DBMS)」および「データサイエンス・機械学習プラットフォーム」の両部門のリーダーとして評価された唯一のクラウドネイティブベンダーとなりました。 レポートは、 こちら から無償でダウンロードできます。 リーダーとして位置づけられることは重要ですが、何を達成したことにより得られた評価なのかがより重要だと私たちは考えています。複数部門のマジック・クアドラント(MQ)で同時に高評価を受けるベンダーは他にも存在します。しかし、そのようなベンダーの多くは、別々の製品によって対象部門の評価基準を満たしているにすぎません。すなわち、問題解決に対する断片的なアプローチに留まっており、シンプルで一元的なエクスペリエンスをお客様に提供するものではありません。 データブリックスは、オープンソースとオープンスタンダ

レイクハウスを市民データサイエンティストに — 8080 Labs 買収

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。 このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収 しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databrick

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in
学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス(カナダ)や、東京(日本)、チューリッヒ(スイス)、杭州(中国)など世界中に存在し、オン/オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。 「Beacon」(灯台や標識塔)という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

公開プレビュー:Databricks ジョブによる複数タスクのオーケストレーション

ドキュメントを読む 企業におけるビジネスインテリジェンス(BI)や、人工知能(AI)への取り組みの強化に伴い、シンプルで明確かつ信頼性の高いデータ処理タスクの オーケストレーション へのニーズが高まっています。Databricks のユーザーの選択肢はこれまで、複数のタスクを1つの Notebook で実行する、もしくは、別のワークフローのツールを使用して、ユーザーの環境全体をさらに複雑にするしかありませんでした。 本日、私たちは、タスクのオーケストレーションをサポートする Databricks ジョブのパブリックプレビューを発表しました。この機能により、複数タスクを有向非巡回グラフ(DAG)として実行することが可能になります。ジョブとは、Databricks のクラスタでアプリケーションを実行する非インタラクティブな方法です。例えば、ETL ジョブやデータ分析タスクをすぐに実行したり、スケジュールを設定して実行したりします。このジョブ内で複数のタスクをオーケストレーションする機能は、追加のコストは不要で、データ

Databricks on Google Cloud を 発表しました

February 17, 2021 Hiral Jasani による投稿 in
Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。 オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

Delta Engine の概要

本日、Databricks は Delta Engine を発表しました。Delta Engine は、Apache Spark 完全互換のベクトル化クエリエンジンで、最新の CPU アーキテクチャに対応し、Databricks Runtime 7.0 に含まれている Spark 3.0 のクエリオプティマイザおよびキャッシング性能の最適化機能を連携させます。その相乗効果により、データレイク、特に Delta Lake で実現されたデータレイクでのクエリ性能が大幅に高速化され、 レイクハウス アーキテクチャの採用やスケーリングが容易になります。 実行性能のスケーリング...

Apache Spark 3.0 概要|Python API の強化・PySpark API の拡充など新機能搭載

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...

Databricks Connect:ホスト型 Apache Spark™ をアプリ、マイクロサービスに

June 14, 2019 Eric Liang による投稿 in
Databricks Connect は、ネイティブな Apache Spark API を任意の Notebook、IDE、カスタムアプリから利用可能にするための新たなライブラリです。今回はその概要をご説明します。 概要 ここ数年、Apache Spark 向けにさまざまなカスタムアプリケーションコネクタが開発されています。spark-submit、REST ジョブサーバー、Notebook ゲートウェイなどのツールなどが含まれます。しかし、これらのツールには多くの制限があります。以下はその一部です。 汎用的でなく、特定の IDE や Notebook でのみ動作するものが多い。 アプリケーションを Spark クラスタ内でホストして実行することが必要な場合がある。 Spark...