ProdvanaチームがDatabricksにジョイン:次世代インフラの進化に向けた新たな一歩
Prodvana チームを Databricks に迎えることができて大変嬉しく思います。 Databricks では、データと AI ワークロードのかつてない増加をサポートするために、世界最大級のマルチクラウド プラットフォームを構築しています。 このプラットフォームは、3 つの主要なクラウド プラットフォーム全体で毎日 2,000 万台を超える仮想マシンを起動します。 これにより、お客様はインフラストラクチャの詳細を気にすることなく、エンタープライズ グレードの拡張性、信頼性、一貫性を備えたデータとAIワークロードを実行できるようになります。 このプラットフォームを支えるインフラは、当社のコアコンピタンスの1つです。 Prodvana は、マネージドデリバリーやインフラストラクチャの洞察、自己修復機能を通じて、クラウドネイティブ環境でのデプロイの複雑さを簡素化する革新的な方法を開発しました。 Databricksでは、同社の専門知識を活用してあらゆる種類のインフラストラクチャの改善を実現し、セキュリティを犠牲
Unity Catalogのオープンソース化を発表します!
Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン
AI/BIの発表:リアルデータに基づくインテリジェント解析の時代へ!
Translation Review by saki.kitaoka 本日、私たちは Databricks AI/BI の発表を大変楽しみにしています。これは、データの意味を深く理解し、誰でもデータを自ら分析できるように設計された新しいビジネスインテリジェンス製品です。AI/BIは、ETLパイプライン、系統、その他のクエリなど、Databricksプラットフォーム全体のデータのライフサイクルからインサイトを引き出す 複合AIシステム に基づいて構築されています。このAI/BIは、次の2つの補完的な製品体験を提供します。 AI/BIダッシュボード: AI駆動のローコードダッシュボードソリューションで、従来のBI機能をすべて備えており、固定されたビジネス質問に答えるために設計されています。 Genie: 人間のフィードバックに基づいてデータとその意味を継続的に学習し、より広範なビジネス質問に答えることができる会話型インターフェースです。データチームによって指定されたクエリパターンについては、確認済みの回答も提供します
Databricks + Tabular
私たちは、データマネジメント会社であるTabular, Incを買収することに合意したことを発表できることを非常に嬉しく思います。この会社はRyan Blue、Daniel Weeks、Jason Reidによって設立されました。この買収により、Apache Iceberg™のオリジナルの作成者と、Linux Foundation Delta Lakeの作成者たちが一堂に会することになります。これにより、データの形式に縛られることなくデータ互換性を実現するための道が開かれます。本ブログでは、短期的にはDelta Lake UniForm内で、長期的には単一でオープンかつ共通の相互運用性の標準へと進化させることを目指し、IcebergおよびDelta Lakeコミュニティと緊密に連携してフォーマット互換性を実現する方法について説明します。取引が完了次第、このチームを迎えることを楽しみにしており、オープンレイクハウスのビジョンに向けて共同で取り組むことに興奮しています。 レイクハウスアーキテクチャの台頭とフォーマット
Unity Catalog Lakeguard:業界初、マルチユーザーのApache Sparkクラスター向けのデータガバナンス
Unity Catalog Lakeguardを発表できることを嬉しく思います。これにより、Databricksデータインテリジェンスプラットフォームのコスト効率の高いマルチユーザーコンピューティング上で完全なデータガバナンスを備えたSQL、Python、ScalaでApache Spark™ ワークロードを実行できるようになります。 従来、ガバナンスを強化するにはシングルユーザークラスターを使用する必要があり、コストと運用のオーバーヘッドを負担する必要がありました。 Lakeguardを使用すると 、ユーザーコードは他のユーザーのコードや共有コンピュート上のSparkエンジンから完全に分離された状態で実行されるため 、実行時 に データガバナンス を強制する ことができます。 これにより、クラスターをチーム全体で安全に共有し、計算コストを削減し、運用の手間を最小限に抑えることができます。 Lakeguardは、 Unity Catalog の導入以来、不可欠な存在となっています。DBR 13.1ではPython
AI生成ドキュメンテーションのためにオーダーメイドLLMを作成する
これは、大規模言語モデル(LLM)を使用して、Unityカタログのテーブルとカラムのドキュメントを自動的に生成するものです 。 私たちは、この機能がお客様から好評をいただいていることに身の引き締まる思いです。 現在、 Databricksのテーブルメタデータ更新の80%以上がAI支援による ものです。 このブログポストでは、既製のSaaSベースのLLMを使用したハッカソンプロトタイピングから、より良く、より速く、より安いオーダーメイドのLLMの作成まで、この機能を開発した私た ちの経験を紹介します。 この新しいモデルの開発には、2人のエンジニア、1ヶ月、1,000ドル未満の計算コストしかかかりませんでした(!) 私たちは、これらの学習がGenAIの幅広いユースケースに当てはまると考えているので、参考にしていただければ幸いです。 さらに重要なのは、オープンソースLLMの急速な進歩を利用できるようになったことです。 AIが作成した文書とは? 各データ・プラットフォームの中心には、データセット(多くの場合テーブル形式)の
データ・インテリジェンス・プラットフォーム
「 ソフトウェアが世界を食べている 」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなく AIがすべてのソフトウェアを食べるようになる と考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。 その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。 これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォー
Databricks + Arcion: Lakehouseへのリアルタイムエンタープライズデータレプリケーション
我々は、リアルタイム・データ・レプリケーション・テクノロジーのリーディング・プロバイダーである Arcion社の買収を完了 したことを発表できることを嬉しく思う。 Arcionの機能により、DatabricksはさまざまなデータベースやSaaSアプリケーションからデータを複製して取り込むネイティブソリューションを提供できるようになり、顧客はデータから価値とAI主導の洞察を生み出すという実際の作業に集中できるようになる。 Arcionのチームとは、Databricksのパートナーとしてだけでなく、 Databricks Venturesの 投資先企業としても、長年にわたって緊密に協力してきました。 この発表により、我々は正式にチームをDatabricksファミリーに迎え入れることになります。 リアルタイムのデータ取り込みとデータベースの複製 Databricksの使命は、あらゆる組織のためにデータとAIを民主化することです。 Databricks Lakehouse Platformは、データ、アナリティクス、AI
Lakeviewダッシュボードがパブリックプレビューになりました!
翻訳:Saki Kitaoka. - Original Blog Link Databricksの次世代SQLダッシュボード「 Lakeview dashboards 」のパブリックプレビューを発表できることを嬉しく思います。本日より利用可能なこの新しいダッシュボードエクスペリエンスは、使いやすさ、幅広い配布、ガバナンス、セキュリティのために最適化されています。 Lakeview は、旧世代のダッシュボードと比較して、4 つの主要な改善点を提供します: ビジュアライゼーションの改善 : 新しいビジュアライゼーション・エンジンにより、美しくインタラクティブなチャートが最大10倍高速に描画されます。 共有と配布の最適化 : ドラフト/パブリッシュ機能により、ダッシュボードを自由に編集することができます。Databricks ワークスペースに直接アクセスできない組織内のコンシューマーとも安全に共有できます。 シンプルなデザイン : WYSIWYG...
Apache Spark™ 3.5のご紹介
翻訳:Junichi Maruyama. - Original Blog Link 本日、Databricks Runtime 14.0の一部として、Databricks上でApache Spark™ 3.5が利用可能になったことを発表いたします。Spark 3.5のリリースに多大な貢献をしていただいたApache Sparkコミュニティに深く感謝いたします。 Sparkをこれまで以上にアクセスしやすく、多用途で効率的なものにするという我々のミッションに沿った今回のアップデートには、以下のような新機能と改良が盛り込まれています: The English SDK for Apache Spark enables users to...