Databricks ブログ

ページ 57

Predictive I/O for Updatesのパブリックプレビューのお知らせ

April 25, 2023 Piyush Revuri、バート・サンウェル、アラ・ルシャク、ラース・クロール、ポロ＝フランソワ・ポリ、フランク・ムンツ、ヒマンシュウ・ラジャによる投稿 in プラットフォーム

Original Blog : Announcing the Public Preview of Predictive I/O for Updates 翻訳： junichi.maruyama 前回、 Predictive I/O と呼ばれる新技術により、CDWのお客様がノブなしで選択的読み取りを最大35倍まで改善できることをご紹介しました。本日は、もう一つの革新的な飛躍であるPredictive I/O for Updatesのパブリックプレビューを発表し、MERGE、UPDATE、DELETEのクエリパフォーマンスを最大10倍高速化することができるようになりました。 Databricksのお客様は、毎日1エクサバイト以上のデータを処理しており、50%以上のテーブルでMERGE、UPDATE、DELETEなどのデータ操作言語（DML）オペレーションを利用しています。このブログでは、Predictive I/Oが機械学習を使用してこの大規模なパフォーマンス向上を達成した方法を説明します。しかし、良い部分にスキップ

Delta Live Tablesを使用して、複数のストリーミングプラットフォームから同時にデータを処理する

April 24, 2023 Uday Satapathy、ディパンカル・クシャリ、Akash Jaiswal による投稿 in エンジニアリングのブログ

Original Blog : Processing data simultaneously from multiple streaming platforms using Delta Live Tables 翻訳： junichi.maruyama 今日の組織における大きな課題の1つは、ビジネスのスピードに合わせた意思決定を可能にすることです。ビジネスチームや自律的な意思決定システムは、意思決定や迅速な対応に必要なすべての情報を、ソースとなるイベントが発生すると同時に、リアルタイムまたはほぼリアルタイムで必要とすることが多い。このような情報は、ストリーム処理用語でイベントと呼ばれ、ソースからデスティネーションへ非同期でリレーされ、一般的にメッセージブローカーやメッセージバスを介して行われる。組織が成長し、チームが他のチームに分岐するにつれ、メッセージブローカーの使用パターン、数、種類は増加します。合併や買収のシナリオでは、企業が新しいメッセージブローカーを継承することが多く、その場合、既存のデータエンジニアリ

Databricks Workspaceの新しいFilesエクスペリエンスを発表

April 23, 2023 ジェイソン・メッサー、Austin Ford、ウェストン・ハッチンズ、Jerry James、Jim Allen Wallace による投稿 in プラットフォーム

Original Blog : Launching a New Files Experience for the Databricks Workspace 翻訳： junichi.maruyama 本日、Databricksのワークスペースにおけるファイルの一般的な利用可能性を発表することを嬉しく思います。ファイルのサポートにより、DatabricksユーザーはPythonソースコード、リファレンスデータセット、その他あらゆるタイプのファイルコンテンツをノートブックと一緒に直接保存できるようになります。また、Databricksは、インラインコード実行をサポートする新しいリッチファイルエディタを一般的に利用できるようにします。この新しいエディタは、ファイルエディタにノートブックの多くの機能（入力時のオートコンプリート、オブジェクトインスペクション、コードフォールディングなど）をもたらし、より強力な編集体験を提供します。ワークスペースでのファイルサポートは、Databricks Reposでお馴染みの機能を拡張

異常検知でエネルギーロスを未然に防ぐ

April 22, 2023 Ashley Johnson、デビッド・ラドフォードによる投稿 in 業界

Original Blog : Anomaly Detection to Prevent Energy Loss 翻訳： junichi.maruyama 電力会社におけるエネルギー損失は、主に不正と漏電の2つに分類されます。不正（またはエネルギー窃盗）は悪意があり、メーターの改ざん、隣家への盗聴、さらには住宅地での商用負荷（栽培ハウスなど）の実行など、さまざまな可能性があります。メーターの改ざんは、従来は担当者が手作業でチェックしていましたが、最近のコンピュータビジョンの進歩により、ライダーやドローンを使ってチェックを自動化することができます。エネルギー漏れは、通常、配管の破損など物理的な漏れを指すことが多いですが、より顕著な問題を含んでいることもあります。例えば、ヒートポンプ式の住宅では、冬に窓を開けっ放しにしておくと、異常なエネルギー消費を引き起こすことがあります。消費者をコスト上昇から守り、エネルギーを節約するためには、このような状況に対応する必要がありますが、人間優先のアプローチでは、エネルギー損失を

YipitDataがDatabricks Unity Catalogを活用しデータサービスの拡張を実現

April 20, 2023 Anup Segu による投稿 in Databricks ブログ

This blog is authored by Anup Segu, Co-Head of Data Engineering at YipitData Original Blog : YipitData leverages Databricks Unity Catalog to Scale...

Databricks上のPyTorch - Spark PyTorch Distributor の紹介

April 19, 2023 ブライアン・ロー、リスウィック・エディガ・ラカムサニによる投稿 in エンジニアリングのブログ

Original Blog : PyTorch on Databricks - Introducing the Spark PyTorch Distributor 翻訳： junichi.maruyama 背景と動機ディープラーニングのアルゴリズムは複雑で、トレーニングに時間がかかりますが、これらのアルゴリズムが実現する価値のために、研究室から生産現場へと急速に移行しつつあります。学習済みのモデルを使用して微調整する場合でも、ネットワークをゼロから構築する場合でも、学習時のメモリと計算負荷はすぐにボトルネックとなります。このような制約を克服するための手段として、一般的な最初の防御策は、分散学習を活用することです。Tensorflowには spark-tensorflow-distributor がありますが、PyTorchには同等のものがありませんでした。 Apache Sparkクラスタでの分散PyTorchトレーニングを簡素化するTorchDistributorライブラリをようやく発表することができました。

SAPと共にオープンデータエコシステムを開発する

April 19, 2023 Samir Patel、Sam Steiny、Awez Syed による投稿 in プラットフォーム

Original Blog : Developing an Open Data Ecosystem with SAP 翻訳： junichi.maruyama 製造業、エネルギー、ライフサイエンス、小売業など、さまざまな業界で、企業がビジネスの耐久性、回復力、持続可能性を重視し、重要な意思決定にデータを活用するようになってきています。これらの業界の企業における重要なデータの大半は、SAPアプリケーションからもたらされています。 SAP Datasphere は、財務、サプライチェーン、CRM、人事など、ERPやその他の機能アプリケーション群にまたがるSAPデータへのシームレスかつスケーラブルなアクセスを可能にする包括的なデータサービスで、DatabricksはSAPの4つのローンチパートナーに加わったことを発表できることを嬉しく思っています。SAP Datasphereは、ビジネスデータファブリックアーキテクチャを実現し、ビジネスコンテキストやデータモデルビューをそのままにSAPデータを提供し、SAPデータの

エグゼクティブのためのデータ、アナリティクス、AI変革ガイド第3回：データチームの成功するオペレーティングモデルの構築

April 19, 2023 クリス・ダゴスティーノ、Mimi Park、Usman Zubair による投稿 in データ戦略

Original Blog : The Executive’s Guide to Data, Analytics and AI Transformation, Part 3: Build Successful Operating Models for Data Teams 翻訳： junichi.maruyama...

Spark NLPでDatabricks Lakehouse Platform上のVision Transformers（ViT）をスケールさせる

April 19, 2023 Maziyar Panahi による投稿 in プラットフォーム

Scale Vision Transformers (ViT) on the Databricks Lakehouse Platform with Spark NLP 翻訳： junichi.maruyama イントロダクション 2017年のことですが、Google AIの研究者グループが、すべての自然言語処理（NLP）の基準を変えるトランスフォーマーモデルのアーキテクチャを紹介する論文を発表しました。これらの新しいTransformerベースのモデルは、NLPタスクに革命を起こしているように見えますが、コンピュータビジョン（CV）での使用はかなり制限されたままでした。これらの新しいTransformerベースのモデルは、NLPタスクに革命をもたらすように見えるが、コンピュータビジョン（CV）での使用はかなり制限されたままであった。コンピュータビジョンの分野は、畳み込みニューラルネットワーク（CNN）の使用によって支配されてきました。CNNをベースとした一般的なアーキテクチャ（ResNetなど）があります。Goo

AI Functions のご紹介：大規模な言語モデルをDatabricks SQLで統合する

April 18, 2023 Patrick Wendell（パトリック・ウェンデル）、エリック・ピーター、ニコラス・ペラエス、謝建偉、Vinny Vijeyakumaar、Linhong Liu、Shitao Li による投稿 in プラットフォーム

Introducing AI Functions: Integrating Large Language Models with Databricks SQL 翻訳： junichi.maruyama 大規模言語モデルの分野で素晴らしい進歩が見られる中、お客様から、SQLアナリストが日々のワークフローでこの強力なテクノロジーを活用できるようにするにはどうしたらよいかという問い合わせがありました。本日、私たちはAI Functions のパブリックプレビューを発表できることを嬉しく思います。AI Functionsは、DBに組み込まれたSQL関数で、SQLから直接Large Language Models（LLM）にアクセスできるようになります。今回の発表により、使い慣れたSQLのインターフェイスから、自社のデータに対してLLMの実験を素早く行うことができるようになりました。正しいLLMプロンプトを開発したら、Delta Live Tablesやスケジュールされたジョブなど、既存のDatabricksツールを使