Databricks ブログ

ページ 61

集まれ！Legendary Heroes of DATA + AI !!

January 16, 2023 Hisae Inoue による投稿 in データ戦略

現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、その動きは日本でも然り。日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Vol.2としてアクセンチュア株式会社様をご紹介します！データブリックスの目指す世界は、私たち単体ではなし得ません！「 Databricks Champion 」の皆様は、共にゴールを共有し、共に走っていく、まさしく、Legendary Heroes of DATA + AI です！！今回は、アクセンチュア株式会社...

コーニングがDatabricks LakehouseプラットフォームでエンドツーエンドのMLを構築した方法

January 4, 2023 Denis Kamotsky による投稿 in Databricks ブログ

“This blog is authored by Denis Kamotsky, Principal Software Engineer at Corning” 翻訳：Junichi Maruyama オリジナルブログはこちらコーニングは約200年にわたり、材料科学における世界有数のイノベーターであり続けています。これらのイノベーションには、トーマス・エジソンの電灯用の最初のガラス電球、最初の低損失光ファイバー、触媒コンバーターを可能にするセルラー基板、モバイル機器用の最初の破損防止カバーガラスなどが含まれます。コーニングでは、限界に挑戦し続けるとともに、機械学習のような破壊的技術を駆使して、より優れた製品を提供し、効率化を推進しています。機械学習による製造工程の効率化高品質な製品を提供することは、世界中の製造拠点における重要な目標であり、MLがその目標達成にどのように貢献できるかを模索し続けています。例えば、乗用車や商用車のエアフィルターや触媒コンバーターに使用されるコーニングのセラミックを製造する工

Community Editionで始めるDatabricks

December 27, 2022 Masahiko Kitamura による投稿 in プラットフォーム

Databricksはあらゆるデータ・分析・データサイエンスのワークロードに対応可能なオープンかつシンプルな Lakehouse を提供しています。そして、Databricksではその機能を無償でお試しいただけるよう、2通りの方法を用意しております。 2週間の無償トライアル: Databricksのフル機能をお試しいただけます。 Community Edition: 機能が限定されますが、期限なし・無償でご利用いただけます。このブログでは、後者のCommunity Editionを使用したDatabricksの始め方について説明します。 Community Editionの機能と制限 Community Editionでは、Databricksのフルバージョンの機能に対して以下の制限があります。作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみワークスペースに追加できるユーザー数は最大3名までクラスターのリージョンはus-westのみ使用できない機能ジョブのスケジュール

一般提供を発表：Unity Catalog でのデータリネージ

December 12, 2022 タオ・フェン、ポール・ルーム、サチン・タクール、張宏毅、Menglei Sun、Shuai Lu による投稿 in プラットフォーム

本日、AWS と Azure で利用可能な Unity Catalog において、データリネージの一般提供を開始したことをお知らせします。データリネージの一般提供により、Databricks レイクハウスプラットフォーム上のミッションクリティカルなワークロードに対して、最高レベルの安定性、サポート、エンタープライズレディネスを期待することができます。データリネージガイド（ AWS | Azure ）を参照してください。このブログでは、データリネージを実用的なデータガバナンス戦略の重要な手段として活用する方法、GA リリースで利用できる主要機能の一部、および Unity Catalog でデータリネージを開始する方法について説明します。データリネージでデータの観測性とコンプライアンスを向上させる Unity Catalog は、データ、分析、AIのための統合ガバナンスソリューションで、データチームがすべてのデータとAI資産をカタログ化し、ANSI SQL に基づく使い慣れたインターフェースを使用してきめ細かいア

Unityカタログの分散・非集中管理に向けた自動化ガイド

December 7, 2022 ヴオン・グエン、ゼアシャン・パッパ、Mattia Zeni による投稿 in プラットフォーム

Original : An Automated Guide to Distributed and Decentralized Management of Unity Catalog 翻訳： junichi.maruyama Unity Catalog は、あらゆるクラウド上のレイクハウスにあるすべてのデータとAI資産に対して、統一されたガバナンスソリューションを提供します。顧客がUnity Catalogを採用する際、コードアプローチとしてのインフラストラクチャを使用して、これをプログラム的かつ自動的に行いたいと考えています。Unity Catalogでは、Unity Catalogのオブジェクトの最上位コンテナであるメタストアがリージョンごとに1つ存在します。このメタストアには、データ資産（テーブルとビュー）と、アクセスを制御する権限が格納されています。このことは、Unity Catalogの管理機能を担うプラットフォーム/ガバナンスチームを一元化していない組織にとって、新たな課題となる。具体的には、これらの

集まれ！Legendary Heroes of DATA + AI !!

December 6, 2022 Hisae Inoue による投稿 in データ戦略

データブリックスの目指す世界は、私たち単体ではなし得ません！そこで、共にゴールを共有し、共に走っていく皆様に向けて「 Databricks Champion 」というプログラムを設けております。現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、日本でもその動きは盛り上がってきており、Databricks Championが増えてきています。本ブログでは、難関を突破し、晴れてDatabricks Championになられた4名の方に、Databricks Championを目指したきっかけやこれからの思いについて、3回に分けてご紹介したいと思います。＜今回ご紹介する Legendary Heroes of DATA＋AI! > [Vol.1] 株式会社NTT データ　　　斎藤祐希様、洪...

PySparkでのメモリプロファイリング

November 29, 2022 Xinrong Meng、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Original Blog : Memory Profiling in PySpark 翻訳： junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます（詳細を見る）しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングできますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを

パンプキンパイにAIはない、でもあるはずだ：MLとAIを使って斬新なアプリケーション体験を提供する

November 8, 2022 アビナッシュ・スーリヤラッチ、ニコル・ジンティング・ル、ブライアン・スミス（Bryan Smith）、Sam Steiny、ミカイラ・ガーフィンケルによる投稿 in 業界

Original: There’s No AI in Pumpkin Pie, But There Should Be: Delivering Novel Application Experiences Using ML & AI 翻訳: junichi.maruyama ホリデーシーズンが到来し、私たちの体を温め、ウエストラインに挑戦する、豊かでおいしい食べ物がたくさん出てきました。Databricksでは、ホリデーシーズンをより楽しくするために、少し楽しみながら、素晴らしいレシピをお客様と共有したいと思いました。しかし、Databricksである以上、AIを活用してそれを実現する必要がありました。 Databricksを使ったAIのシンプルさを実際に見せるために、私たちは「最高のパンプキンパイを作るにはどうしたらいいか」というトップオブマインドな課題を解決することにしました。このブログ記事では、Databricks...

Databricks Workflows によるレイクハウスの本番 dbt プロジェクトのオーケストレーション

October 3, 2022 ビラル・アスラム、レナート・カッツによる投稿 in プラットフォーム

信頼性の高いレイクハウスのオーケストレーターである Databricks Workflows が、パブリックプレビューで dbt プロジェクトのオーケストレーションをサポートするようになったことをお知らせします。このプレビューでは、データチームがノートブックから ML モデルまで、レイクハウスの全ての機能とともに dbt プロジェクトを調整することができます。この機能により、オープンソース dbt のユーザーは、SQL を使ったデータ変換や、レイクハウス全体のデータおよび ML パイプラインの監視と保守を簡単に行うことができます。ジョブが実行されると、dbt プロジェクトが Git リポジトリから取得され、単一ノードのクラスタが構築され、そこに dbt-core とプロジェクトの依存関係がインストールされます。dbt で生成された...

AI の活用とデータを一元化することでビジネスを成功に変える方法

August 7, 2022 Satoshi Okamoto による投稿 in インサイト

デジタルネイティブ企業がアナリティクスとAIを大規模に活用し、真のデータ駆動型企業へと飛躍している様子を紹介します。ここでは、 Databricks Lakehouse を活用し、コスト効率と回復力の高いモダンなデータプラットフォームでビジネスの成長に拍車をかけたアジア太平洋地域のデジタルネイティブ企業 5 社に焦点を当てたいと思います。データと人工知能（AI）は、ビジネスに不可欠な意思決定の最前線にあります。データに精通したデジタルネイティブから「伝統的」な企業まで、これらの企業は、競合他社を出し抜き、顧客を喜ばせるためには、振り返ることに時間を費やさず、リアルタイムでデータを使って先を見通し、将来を予測し計画する必要があることを理解しています。何百ものお客様とお話するなかで、なぜ企業が倉庫やオンプレミスソフトウェア、その他のレガシーインフラからクラウドへ移行しつつあるのか、その理由がわかってきました。また、サービスを市場投入までの時間を短縮するために、全てを自社で IT インフラを一から構築することから、