プラットフォームブログ

ページ 23

Databricks Connect “v2” でどこからでも Databricks を使用しよう

April 18, 2023 ステファニア・レオーネ、マーティン・グルンド、ウラディスラフ・マンティック＝ルーゴ、Niranjan Jayakar による投稿 in プラットフォームブログ

Original Blog : Use Databricks from anywhere with Databricks Connect “v2” 翻訳： junichi.maruyama この度、Databricks Connect "v2 "のパブリックプレビューを発表することができ、開発者はどこでも動作するアプリケーションからDatabricksのパワーを利用できるようになりました。これまで、SQL以外の言語からDatabricksにリモートで接続する方法はありませんでした。 Databricks Connect library をアプリケーションに組み込み、Databricks Lakehouseに接続するだけです！...

MLflow 2.3の紹介：LLMのネイティブサポートと新機能による強化

April 17, 2023 ベン・ウィルソン、Harutaka Kawamura、リャン・チャン、コーリー・ズマール、Jin Zhang、スニッシュ・シェスによる投稿 in プラットフォームブログ

Introducing MLflow 2.3: Enhanced with Native LLM Support and New Features 翻訳： junichi.maruyama MLflow は月間 1,300 万ダウンロードを超え、エンドツーエンドの MLOps の主要なプラットフォームとしての地位を確立しており、あらゆる規模のチームがバッチおよびリアルタイム推論用のモデルを追跡、共有、パッケージ化、およびデプロイできるようにしました。MLflowは、何千もの組織で日々採用され、多様なプロダクション機械学習アプリケーションを推進しており、産業界と学界から500人以上の貢献者からなる活発なコミュニティによって活発に開発されています。今日、私たちはこのオープンソースの機械学習プラットフォームの最新版であるMLflow 2.3を発表することができ、大規模言語モデル（LLM）の管理・導入能力を向上させる革新的な機能が満載されていることに興奮しています。この強化されたLLMサポートは、以下のような形で提供さ

Delta Live Tablesで10億レコードのETLを1ドル未満で実行した方法

April 13, 2023 Dillon Bostwick、Shannon Barrow、Franco Patano、Rahul Soni による投稿 in プラットフォームブログ

Original: How We Performed ETL on One Billion Records For Under $1 With Delta Live Tables 翻訳: junichi.maruyama 今日、DatabricksはETL（Extract、Transform、Load）の価格とパフォーマンスの新しい標準を打ち立てました。お客様は10年以上前からDatabricksをETLパイプラインに使用していますが、従来のETL技術を使用してEDW（Enterprise Data Warehouse）のディメンションモデルにデータを取り込む場合、クラス最高の価格とパフォーマンスを公式に実証しています。そのために、データ統合、つまり一般にETLと呼ばれるもののための最初の業界標準ベンチマークである TPC-DI...

エグゼクティブのためのデータ、アナリティクス、AI変革ガイド第2回：ユースケースの特定と優先順位付け

April 7, 2023 クリス・ダゴスティーノ、Mimi Park、Usman Zubair による投稿 in 製品

Original Blog : The Executive’s Guide to Data, Analytics and AI Transformation, Part 2: Identify and prioritize use cases 翻訳： junichi.maruyama 本連載は、データおよびAIの変革イニシアチブを率いるシニアエグゼクティブと重要な洞察と戦術を共有するための複数回シリーズのパート2です。シリーズのパート1はこちら...

クラスターポリシーのGeneral Availabilityのお知らせ

April 7, 2023 ピユーシュ・シンによる投稿 in プラットフォームブログ

Original Blog : Announcing General Availability of Cluster Policies 翻訳： junichi.maruyama この度、クラスターポリシーが一般公開されることになりました。 Why Databricks cluster policies? Databricksのクラスタポリシーによって、管理者は以下のことが可能になります：エンドユーザーのクラスタ構成を制御することで、コストを抑えることができます。エンドユーザーによるクラスタ作成の効率化コスト管理のためにワークスペース全体にタグ付けを強制する。 Databricksは、個人利用、共有利用、ジョブという3つの一般的なユースケースに対して、あらかじめ設定されたクラスターポリシーを提供します。管理者は、独自のポリシーをカスタマイズしたり、あらかじめ設定されたオプションを編集することも可能です。 How to...

Visual Studio CodeからDatabricks上でSQLクエリを実行する

March 29, 2023 ビラル・アスラム、Fabian Jakobs、シャント・ホヴセピアンによる投稿 in プラットフォームブログ

Original Blog : Run SQL Queries on Databricks From Visual Studio Code 翻訳： junichi.maruyama 本日、人気のSQLTools拡張機能のプレビュードライバを使用して、Visual Studio CodeからDatabricks上のSQLクエリを実行できるようになったことをお知らせします。このプレビュー・リリースは、先日公開された VS CodeのDatabricks拡張機能を補完するもので、これによりユーザーはDatabricksが管理するコンピュート上でローカルに開発したコードを同期して実行することができます。 Databricks...

レイクハウス探訪 - Databricksの全貌に迫る

March 10, 2023 Takaaki Yayoi による投稿 in プラットフォームブログ

本稿では、Databricksレイクハウスの構成要素を紐解き、それぞれが担う役割や提供機能にディープダイブする。レイクハウスとはこちらの記事でも触れているように、レイクハウスはこれまでのデータプラットフォームの課題を解決するために、データウェアハウスとデータレイクの長所を組み合わせた新たなデータプラットフォームである。以下の図に示しているように、レイクハウスではテーブルなどの構造化データ、ログやJSONのような半構造化データ、さらには、画像・音声・テキストのような非構造化データすべてを格納することができ、データウェアハウスを活用して行われていたBIや、データレイクの主なユースケースであるデータサイエンスや機械学習の取り組みなどをすべて一つのプラットフォームで実施することできる。以降では、Databricksでこのような機能をどのように実現しているのかを説明していく。レイクハウスのアーキテクチャハイレベルなレイクハウスのアーキテクチャ図を以下に示す。一番上にあるグリーンの箱は、ユースケースあるいはペルソ

データ×AIプロジェクトに携わる人々はどのようにDatabricksを活用するのか

March 9, 2023 Takaaki Yayoi による投稿 in プラットフォームブログ

数多くの企業が、競争優位性を確保し、イノベーションを促進するためにデータとAIを活用しようとしている。データとAI活用のユースケースやプロジェクトは多岐にわたるが、そのようなプロジェクトに従事する人々のペルソナやスキルセットは共通している。本稿では、データ×AIプロジェクトに従事するのはどのような人たちなのか、彼らはどのような課題を抱えているのかを説明し、Databricksレイクハウスプラットフォームを活用することでどのような価値を得ているのかをサンプルシナリオを通じてデモンストレーションする。データ×AIプロジェクトとはビッグデータというキーワードが出現した2010年代以降、データは減るどころか指数関数的に増加しており、その重要性も増していると言える。しかし、一方でそれらのデータを全ての企業が有効に活用できているのかというと、そういう訳でもないのが実情である。 2021年のMIT Tech Review によると、データ戦略に成功している企業は全体の13%である。このような状況を打破しようと、ここ数年で

Unity Catalogによる分散型データガバナンスと孤立した環境の実現

March 8, 2023 Max Nienu、ゼアシャン・パッパ、ポール・ルーム、サチン・タクールによる投稿 in ソリューション

Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳： junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者（CDO）の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま

Databricks SQLステートメント実行API - パブリックプレビューを発表

March 6, 2023 アドリアナ・イスパス、Bogdan Ionut Ghit、Ben Fleis、パール鵜原による投稿 in プラットフォームブログ

Original Blog : Databricks SQL Statement Execution API – Announcing the Public Preview 翻訳： junichi.maruyama 本日、AWSとAzureで利用可能なDatabricks SQLステートメント実行APIのパブリックプレビューを発表します。 Databricks SQL ウェアハウスにREST APIで接続し、 Databricks Lakehouse...