Databricks ブログ

ページ 37

DatabricksおよびApache Spark™上でのRayオートスケーリングのサポートを発表

January 9, 2024 ウェイチェン・シュー、プネート・ジャイン、ベン・ウィルソンによる投稿 in エンジニアリングのブログ

Ray はオープンソースの統合コンピュートフレームワークで、分散環境におけるAIとPythonワークロードのスケーリングを簡素化します。 Databricks上でのRay の実行サポートを導入して以来、予測や深層強化学習からLLMの微調整に至るまで、数多くのお客様が機械学習のユースケースの導入に成功しています。 Rayバージョン2.8.0 のリリースに伴い、Ray on Databricksのオートスケーリングサポートが追加されました。オートスケーリングは、変動する需要に対してリソースを動的に調整することができるため、不可欠です。処理のニーズは時間と共に大きく変化する可能性があるため、オートスケーリングにより、最適なパフォーマンスとコスト効率を保証し、手動介入を必要とせずに計算能力と費用のバランスを維持するのに役立ちます。 Databricks上のRayオートスケーリングは、必要に応じてワーカーノードを追加または削除することができ、Sparkフレームワークを活用して分散コンピューティング環境におけるスケーラ

Databricks アシスタントを最大限に活用するための5つのヒント

January 8, 2024 ランダン・ジョージ、ウェストン・ハッチンズによる投稿 in プラットフォーム

Databricks アシスタントは、Databricksノートブック、SQLエディタ、ファイルエディタで利用可能な、コンテキストを意識したAIアシスタントで、Databricksの生産性を向上させます： SQL／Pythonコードの生成オートコンプリートコードまたはクエリコードの変換と最適化コードやクエリの説明エラーの修正とコードのデバッグアクセス可能なテーブルとデータの発見 Databricks アシスタントのドキュメントには、これらのタスクに関する高レベルの情報と詳細が記載されていますが、コード生成のためのジェネレーティブAIは比較的新しいものであり、これらのアプリケーションを最大限に活用する方法はまだ学習中です。このブログ記事では、Databricks アシスタントを最大限に活用するための5つのヒントとトリックについて説明します。 Databricks アシスタントのための5つのヒント 1. より良い応答を得るためにFind Tablesアクションを使用する Databricks アシスタン

Delta Sharingによるグローバル・データ・コラボレーションの構築

January 5, 2024 Matei Zaharia、ビラル・オベイダット（Bilal Obeidat）、Tianyi Huang、Giselle Goicochea による投稿 in プラットフォーム

今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta

Intel Gaudi 2 AIアクセラレーターによるLLMトレーニングと推論

January 4, 2024 アビ・ヴェニガラ、ダヤ・クディアによる投稿 in モザイクリサーチ

Databricksでは、お客様がデータのプライバシーやコントロールを犠牲にすることなく、ご自身のデータでジェネレーティブAIアプリケーションを構築し、展開できるようにしたいと考えています。カスタムAIモデルのトレーニングをご希望のお客様には、簡単かつ効率的に、低コストでトレーニングできるようお手伝いします。この課題に対処するための1つの手段は、MLハードウェアの最適化です。この目的のために、私たちはLLMスタックが様々なMLハードウェアプラットフォーム（例えば、NVIDIA [1][2]、AMD [3][4]）をシームレスにサポートできるよう、たゆまぬ努力を続けてきました。本日は、AIトレーニングおよび推論市場におけるもう1つの主役、Intel® Gaudi® AIアクセラレーター・ファミリーについてご紹介します！これらのアクセラレータは、AWS（第一世代のGaudi）、Intel Developer Cloud（Gaudi 2）、およびオンプレミス実装の場合はSupermicroとWiWynn（Gau

PySparkによるパラメータ化クエリ

January 3, 2024 マシュー・パワーズ、ダニエル・テネドリオ、Hyukjin Kwon による投稿 in エンジニアリングのブログ

PySparkは常にデータを問い合わせるための素晴らしいSQLとPython APIを提供してきました。 Databricks Runtime 12.1とApache Spark 3.4の時点で、パラメータ化されたクエリは、Pythonicプログラミングパラダイムを使用してSQLでデータをクエリする安全で表現力豊かな方法をサポートしています。この投稿では、PySparkでパラメータ化されたクエリを作成する方法と、それがあなたのコードにとって良いデザインパターンである場合について説明します。パラメータは、Sparkコードの再利用やテストを容易にするのに役立ちます。また、良いコーディングの実践も奨励しています。この記事では、PySparkのクエリをパラメータ化する2つの異なる方法を示します： PySpark カスタム文字列フォーマットパラメータマーカー両方のタイプのPySparkパラメータ付きクエリの使い方を見て、組み込みの機能が他の選択肢よりも優れている理由を探ってみましょう。パラメータ化されたクエリ

『Databricks Assistant for Help 』のご紹介

December 26, 2023 ジャスティン・キム、シャオレイ・シー、Rhetta Nadas、リチャード・トムリンソンによる投稿 in プラットフォーム

Databricks Assistant は、Databricks Notebooks、SQLエディタ、およびファイルエディタに統合されたコンテキストを認識するAIアシスタントであり、 UnityカタログでAIが生成したドキュメントを提供します。 Databricks Assistant for Helpは、AIを使って学習、探索、検索、トラブルシューティング、サポートを受けるための新しい方法です。ユーザーはAIを活用してDatabricksのドキュメントを検索し、機能やエラーに関する質問に答えることができます。また、追加のサポートが必要な場合、サポートチームとの連絡をサポートすることもできます。Databricks Assistant for Helpはどのページからもアクセス可能で、ユーザー名の隣にあるトップナビゲーションバーにあります。質問をしてみましょうアシスタントに質問することで、製品について学んだり、Databricksでチューニングされた知識でサポートを受けることができます。これらの質問の構成

Databricksによる建築製品業界の異常検知のための機械学習の活用

December 22, 2023 ジョイ・ガーネット、アビナッシュ・スーリヤラッチ、サティッシュ・ガンギチェッティによる投稿 in 導入事例

序章異常検知はさまざまな業界で広く応用されており、企業部門では重要な役割を果たしています。このブログでは、製造業での応用に焦点を当てます。シミュレーションされたプロセスサブシステムの健全性監視を中心としたケーススタディを探求します。さらに、主成分分析（PCA）のような次元削減手法を掘り下げ、そのようなシステムを本番環境に導入した場合の実際の影響を検証します。実際の例を分析することで、Databricksをツールとして活用し、このアプローチをどのようにスケールアップして、広範なセンサーデータから価値ある洞察を抽出できるかを実証します。 LPビルディングソリューションズ（LP）は、建築業界を形成してきた50年以上の実績を持つ木材製品製造会社です。北米と南米で事業を展開するLP社は、耐湿性、耐火性、耐シロアリ性を備えた建築製品ソリューションを製造しています。 LP社では、環境・衛生・安全（EHS）データとともに、ペタバイト級の過去のプロセスデータが長年にわたって収集されてきました。このような大量の履歴デー

Mixtral 8x7B と Databricks モデルサーヴィングのご紹介

December 21, 2023 アフマド・ビラル、ダヤ・クディア、Ankit Mathur、アスファンディヤール・クレシ、ブルース・フォンテーヌ、リンデン・リー、サンディープ・クリシュナムルシー、ジョシュ・ハートマン、ハゲイ・ルペスコによる投稿 in エンジニアリングのブログ

reviewed by saki.kitaoka 本日、Databricksはモデルサーヴィングで Mixtral 8x7Bをサポートすることを発表します。Mixtral 8x7BはスパースなMixture of Experts（MoE）オープン言語モデルで、多くの最先端モデルを凌駕するか、あるいはそれに匹敵します。最大32kトークン（約50ページのテキスト）の長いコンテキストを処理する能力を持ち、そのMoEアーキテクチャはより高速な推論を提供するため、RAG（Retrieval-Augmented Generation）やその他の企業ユースケースに理想的です。 Databricks Model Servingは、プロダクショングレードのエンタープライズ対応プラットフォーム上で、オンデマンド価格でMixtral 8x7Bへの即時アクセスを提供します。毎秒数千のクエリをサポートし、シームレスなベクターストア統合、自動化された品質モニタリング、統合ガバナンス、アップタイムのSLAを提供します。このエ

Databricksは、2023年ガートナー®マジッククアドラント™クラウドデータベース管理システムのリーダーに選ばれました。

December 21, 2023 エリカ・エーリ、Sonya Vargas、デイビッド・ホワイトハウスによる投稿 in Databricks ブログ

私たちは、GartnerがDatabricksを2023年のGartner® Magic Quadrant™ for Cloud Database Management Systemsで3年連続のリーダーと認識したことを発表することを嬉しく思います。今年、Gartnerは19のベンダーを評価し、私たちはAmazon Web Services、Google Cloud PlatformでのDatabricks Data Intelligence Platform、そしてMicrosoftのAzure Databricksとしての第一パーティ製品として認識されることを光栄に思います。レポートの無料コピーをここからダウンロードしてください。 Databricksでは、お客様へのこだわりが引き続き私たちの革新と製品ロードマップを推進しており、データインテリジェンスプラットフォームを急速に拡大して、真にData +...

NVIDIA TensorRT-LLMとDatabricks推論スタックを統合する

December 21, 2023 リンデン・リー、メーガ・アガルワル、Kobie Crawford、ダヤ・クディアによる投稿 in モザイクリサーチ

この半年間、私たちはNVIDIAと協力して、彼らの新しいTensorRT-LLMライブラリを最大限に活用してきました。 TensorRT-LLMは、ウェブサーバと統合するための使いやすいPythonインタフェースを提供し、LLMによる高速で効率的な推論パフォーマンスを実現します。この投稿では、NVIDIAとの協力が特に重要であった主要分野をいくつか紹介します。