エンジニアリングのブログ

ページ 10

一部の地域でDatabricks SQL Serverlessの一般利用開始を発表します！

May 22, 2023 Cyrielle Simeone、シャント・ホヴセピアン、ガウラヴ・サラフによる投稿 in プラットフォームブログ

Original: Announcing the General Availability of Databricks SQL Serverless ! 翻訳: saki.kitaoka 本日、AWSおよびAzureの一部地域でDatabricks SQLのサーバーレスコンピューティングが一般利用可能になったことを発表することを大変嬉しく思います！ Databricks SQL (DB SQL) サーバーレスは、インスタントでエラスティックなコンピューティングによる最高のパフォーマンスを提供し、コストを削減し、インフラの管理ではなくビジネスへの最大の価値提供に注力できるようにします。GA（一般提供）により、Databricksからの最高レベルの安定性、サポート、エンタープライズ対応を、Databricks Lakehouse Platform上のミッションクリティカルなワークロードに対して期待することができます。このブログ記事では、DB SQL...

Apache Spark Structured Streamingでレイテンシが1秒未満になりました

May 15, 2023 Jerry Peng、Pranav Anand、Sourav Gulati、Karthik Ramasamy、Michael Armbrust、Matei Zaharia による投稿 in エンジニアリングのブログ

Original: Latency goes subsecond in Apache Spark Structured Streaming 翻訳: saki.kitaoka Apache Spark Structured Streaming は、オープンソースのストリーム処理プラットフォームの代表格です。 the Databricks Lakehouse Platform のストリーミングを支える中核技術でもあり、バッチ処理とストリーム処理のための統一APIを提供しています。ストリーミングの採用が急速に進む中、多様なアプリケーションがストリーミングを活用してリアルタイムな意思決定を行いたいと考えています。これらのアプリケーションのうち、特に運用型のアプリケーションでは、より低いレイテンシーが要求されます。Sparkの設計は、高いスループットと使いやすさを低コストで実現する一方で、サブセカンドレイテンシーに最適化されていません。本ブログでは、Structured Streamingの固有の処理レイテンシーを低減す

Databricks SQL AI Functionsで大規模に顧客レビューに対して行動する

May 9, 2023 Vinny Vijeyakumaar による投稿 in エンジニアリングのブログ

Original : Actioning Customer Reviews at Scale with Databricks SQL AI Functions 翻訳： junichi.maruyama スーザンは毎朝、メッセージの嵐にさらされ、何から手をつけたらいいのかわからない！スーザンは、世界的な小売企業のカスタマーサクセススペシャリストです。彼女の主な目的は、顧客が問題に遭遇したときに、必ず満足し、個人的なサービスを受けられるようにすることです。一晩で、ウェブサイト、アプリ、ソーシャルメディアへの投稿、電子メールなど、複数のチャネルで何百ものレビューやフィードバックが寄せられるようになりました。スーザンの1日の始まりは、これらのシステムにそれぞれログインし、同僚がまだ収集していないメッセージを拾い上げることから始まります。次に、これらのメッセージの意味を理解し、対応する必要があるものを特定し、お客さまへの回答を作成する必要があります。なぜなら、メッセージの形式はさまざまで、お客さまはそれぞれ独自のスタイル

Delta Lakeとの統合でデータエコシステムを統一する

May 8, 2023 Itai Yaffe、リラン・バレケットによる投稿 in エンジニアリングのブログ

Original : Unifying Your Data Ecosystem with Delta Lake Integration 翻訳： junichi.maruyama 組織がデータインフラを成熟させ、データレイクにこれまで以上に多くのデータを蓄積していく中で、Delta Lakeのようなオープンで信頼性の高いテーブルフォーマットは非常に必要になってきます。すでに何千もの企業が本番でDelta Lakeを使用しており、（2022年6月に発表された） Delta Lakeのすべてをオープンソース化したことで、さまざまなドメインや垂直方向での採用がさらに進んでいます。それらの企業の多くは、Databricksとその他のデータおよびAIフレームワーク（Power BI、Trino、Flink、Spark on Kubernetesなど）の両方を技術スタックの一部として使用しているため、それらすべてのフレームワークを使用してDelta...

Terraform Databricksのモジュールを発表

May 3, 2023 Yassine Essawabi、Hao Wang、Alex Ott による投稿 in エンジニアリングのブログ

Original: Announcing Terraform Databricks modules 翻訳: junichi.maruyama Databricks Terraformプロバイダーは1,000万インストールを突破し、一般提供開始後1年未満で大幅に採用が増えました。この重要なマイルストーンはTerraformとDatabricksプロバイダーが、Lakehouse Platformのインフラ展開と管理を自動化するために、多くのお客様に広く利用されていることを示すものです。インフラの維持、管理、拡張を容易にするために、DevOpsチームはTerraform モジュールと呼ばれるモジュール化された再利用可能なコンポーネントを使用してインフラを構築します。Terraformモジュールによって、複数のユースケースや環境にわたって同じコンポーネントを簡単に再利用することができます。また、組織全体でリソースを定義し、ベストプラクティスを採用するという標準的なアプローチを強制することができます。一貫性に

Databricksクラスタinitスクリプトの安全化

May 1, 2023 Elia Florio、 Florian Roth、Marius Bartholdy による投稿 in エンジニアリングのブログ

This blog was co-authored by Elia Florio, Sr. Director of Detection & Response at Databricks and Florian Roth and Marius Bartholdy, security researchers...

Databricks ❤️ Hugging Face

April 26, 2023 Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、マディ・ドーソン、Lu Wang、Xiangrui Meng、ニコラス・ペラエスによる投稿 in オープンソース

Original Blog : Databricks ❤️ Hugging Face 翻訳： junichi.maruyama ジェネレーティブAIが世界を席巻しています。データ＆AIカンパニーである私たちは、オープンソースの大規模言語モデル「Dolly」と、そのファインチューニングに使用した研究・商用利用のための社内クラウドソーシングデータセット「databricks-dolly-15k」をリリースし、この旅に参加しています。モデルもデータセットも、Hugging Faceで公開されています。そして今日、私たちはHugging Faceコードベースへの最初の公式コミットを発表し、ユーザーがApache Spark™データフレームからHugging Faceデータセットを簡単に作成できるようにすることに興奮しています。「Databricksがモデルやデータセットをコミュニティに公開することは素晴らしいことですが、今回、Hugging Faceに直接オープンソースを提供することで、その作業を拡張していることがわか

Delta Live Tablesを使用して、複数のストリーミングプラットフォームから同時にデータを処理する

April 24, 2023 Uday Satapathy、ディパンカル・クシャリ、Akash Jaiswal による投稿 in エンジニアリングのブログ

Original Blog : Processing data simultaneously from multiple streaming platforms using Delta Live Tables 翻訳： junichi.maruyama 今日の組織における大きな課題の1つは、ビジネスのスピードに合わせた意思決定を可能にすることです。ビジネスチームや自律的な意思決定システムは、意思決定や迅速な対応に必要なすべての情報を、ソースとなるイベントが発生すると同時に、リアルタイムまたはほぼリアルタイムで必要とすることが多い。このような情報は、ストリーム処理用語でイベントと呼ばれ、ソースからデスティネーションへ非同期でリレーされ、一般的にメッセージブローカーやメッセージバスを介して行われる。組織が成長し、チームが他のチームに分岐するにつれ、メッセージブローカーの使用パターン、数、種類は増加します。合併や買収のシナリオでは、企業が新しいメッセージブローカーを継承することが多く、その場合、既存のデータエンジニアリ

Databricks上のPyTorch - Spark PyTorch Distributor の紹介

April 19, 2023 ブライアン・ロー、リスウィック・エディガ・ラカムサニによる投稿 in エンジニアリングのブログ

Original Blog : PyTorch on Databricks - Introducing the Spark PyTorch Distributor 翻訳： junichi.maruyama 背景と動機ディープラーニングのアルゴリズムは複雑で、トレーニングに時間がかかりますが、これらのアルゴリズムが実現する価値のために、研究室から生産現場へと急速に移行しつつあります。学習済みのモデルを使用して微調整する場合でも、ネットワークをゼロから構築する場合でも、学習時のメモリと計算負荷はすぐにボトルネックとなります。このような制約を克服するための手段として、一般的な最初の防御策は、分散学習を活用することです。Tensorflowには spark-tensorflow-distributor がありますが、PyTorchには同等のものがありませんでした。 Apache Sparkクラスタでの分散PyTorchトレーニングを簡素化するTorchDistributorライブラリをようやく発表することができました。

Spark Connect がApache Spark 3.4で利用可能になりました

April 17, 2023 アラン・フォルティング、Hyukjin Kwon、Xiao Li、ヘルマン・ファン・ヘーベル、ステファニア・レオーネ、マーティン・グルンド、Reynold Xin（レイノルド・シン）、Kris Mo による投稿 in エンジニアリングのブログ

Original Blog : Spark Connect Available in Apache Spark 3.4 翻訳： junichi.maruyama 昨年、Data and AI SummitでSpark Connectが紹介されました。最近リリースされたApache SparkTM 3.4の一部として、Spark Connectは一般的に利用できるようになりました。また、最近Databricks ConnectをSpark...