Spark JDBCを使用してリアルタイムのSAP HANAデータをDatabricksにフェデレートする最速の方法
翻訳:Junichi Maruyama. - Original Blog Link SAPが最近発表したDatabricksとの戦略的パートナーシップは、SAPの顧客の間で大きな興奮を呼んでいる。データとAIのエキスパートであるDatabricksは、SAP HANAとDatabricksを統合することで、アナリティクスとML/AI機能を活用するための魅力的な機会を提供します。このコラボレーションの大きな関心を受け、私たちはディープダイブ・ブログ・シリーズに着手することになりました。 多くのお客様のシナリオでは、SAP HANAシステムは、SAP CRM、SAP ERP/ECC、SAP BWなど、さまざまなソースシステムからのデータ基盤の主要なエンティティとして機能しています。そして今、この堅牢なSAP HANA分析サイドカーシステムをDatabricksとシームレスに統合し、組織のデータ機能をさらに強化するエキサイティングな可能性が生まれました。SAP HANA(HANA Enterprise Editionラ
DatabricksがISO 27701認証を取得しました
翻訳:Saki Kitaoka. - Original Blog Link Databricks がデータ処理業者として国際標準化機構 (ISO) 27701 認証を取得したことをお知らせします。この認証は、プライバシーに対する当社のコミットメントを反映したものであり、顧客データを取り扱う際のDatabricksのプライバシー慣行について、第三者による検証をお客様に提供するものです。 ISO/IEC 27701:2019とは何ですか? ISO 27701認証は、ISO/IEC 27001のプライバシー管理拡張版であり、組織のコンテキスト内でプライバシー情報管理システム(PIMS)を確立、実装、維持、および継続的に改善するためのガイダンスを提供します。この規格への準拠は、DatabricksのPIMSが欧州一般データ保護規則(GDPR)、カリフォルニア州消費者プライバシー法(CCPA)、およびその他のデータプライバシー規制への準拠をサポートしていることを示すものです。 Databricksの認定についてさらに詳しく
Databricksワークフローによるデータ分析のオーケストレーション
翻訳:Saki Kitaoka. - Original Blog Link データドリブンな企業にとって、データアナリストはデータから洞察を引き出し、それを意味のある形で提示する上で重要な役割を担っています。しかし、多くのアナリストは、本番用のワークロードを自動化するために必要なデータオーケストレーションに精通していない可能性があります。アドホックなクエリ をいくつか実行すれば、直前のレポート用に適切なデータを迅速に作成できますが、データチームは、さまざまな処理、変換、検証タスクを適切な順序で確実に実行する必要があります。適切なオーケストレーションが行われないと、データチームはパイプラインの監視、障害のトラブルシューティング、依存関係の管理ができなくなります。その結果、当初は即効性のある価値をビジネスにもたらしたアドホックなクエリセットが、それらを構築したアナリストにとって長期的な頭痛の種になってしまいます。 パイプラインの自動化とオーケストレーションは、データの規模が大きくなり、パイプラインの複雑さが増すにつれて
「推論テーブル」の発表: AIモデルのモニタリングと診断を簡素化
翻訳:Saki Kitaoka. - Original Blog Link AIモデルを導入してみたものの、実世界で予想外の結果が出たという経験はありませんか ? モデルのモニタリングは、そのデプロイと同じくらい重要です。そこで、AIモデルのモニタリングと診断を簡素化するInference Tablesをご紹介します。Inference Tablesを使用すると、 Databricks Model Serving エンドポイントからの入力と予測を継続的にキャプチャし、Unity Catalog Delta Tableに記録することができます。その後、Lakehouse Monitoringなどの既存のデータツールを活用して、AIモデルを監視、デバッグ、最適化できます。 推論テーブルは、LakehouseプラットフォームでAIを実行する際に得られる価値の素晴らしい例です。複雑さやコストを追加することなく、デプロイされたすべてのモデルでモニタリングを有効にすることができます。これにより、問題を早期に検出し、再トレーニン
Databricks SQLステートメント実行APIの一般提供(GA)を開始しました!
翻訳:Saki Kitaoka. - Original Blog Link 本日、AWS および Azure 上で Databricks SQL ステートメント実行 API の一般提供を開始することを発表します。このAPIを利用することで、REST API経由 でDatabricks SQLウェアハウスに接続し、 Databricks Lakehouse Platform が管理するデータにアクセスして操作することができます。 このブログでは、API の基本を説明し、GA...
Databricksアセットバンドルのパブリックプレビューを発表:簡単にソフトウェア開発のベストプラクティスを適用可能に!
翻訳:Saki Kitaoka. - Original Blog Link Databricksアセットバンドル( Databricks Asset Bundles )が現在パブリックプレビューで利用可能になりました! 略して「バンドル」と呼ばれるこれらは、ソースコントロール、コードレビュー、テスト、継続的インテグレーションおよびデリバリー(CI/CD)を含む、ソフトウェアエンジニアリングのベストプラクティスの採用を容易にします。バンドルによって、データエンジニア、データサイエンティスト、およびMLエンジニアは、データ、分析、およびAIプロジェクトをソースファイルとして表現することができます。これらのソースファイルは、プロジェクトのエンドツーエンドの定義を提供し、Lakehouseにどのようにテストおよびデプロイされるべきかを含みます。この定義は、簡単に編集、テスト、およびデプロイすることができます。 テストとデプロイを自動化する CI/CDは、現代のソフトウェア開発において本質的であり、テストとデプロイを自動化
大手金融機関がデータブリックスを採用したワケは
去る6月28日、サンフランシスコで開催されたDATA+AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData+AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート(6/27 Partner Summit) - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。...
Databricks Lakehouse AIでLlama 2 Foundation Modelsが利用可能になりました!
翻訳:Saki Kitaoka. - Original Blog Link 私たちは、Meta AIのLlama 2 チャットモデル ( Meta AI’s Llama 2 ) が Databricks Marketplace で利用可能になり、プライベートモデルのサービングエンドポイントに微調整してデプロイできることを発表できることを嬉しく思います。Databricksマーケットプレイスは、クラウド、リージョン、プラットフォーム間でデータアセット(データセットやノートブックを含む)を共有および交換できるオープンなマーケットプレイスです。既にマーケットプレイスで提供されているデータアセットに加え、この新しいリスティングは、7から70ビリオンのパラメータを持つLlama 2のチャット指向の大規模言語モデル(LLM)、およびUnityカタログの集中ガバナンスと系統追跡へのインスタントアクセスを提供します。各モデルはMLflowにラップされており、Databricksノートブックで MLflow Evaluation.
Reposでコンフリクト解決をサポートしました: Merge, Rebase and Pull
翻訳:Saki Kitaoka. - Original Blog Link Databricksでは、開発者の経験をシンプル化することに力を入れており、Databricks Reposにおける追加のGit機能を発表することを大変嬉しく思っています。ユーザーは現在、Repos UIから直接、Git merge(マージ)とGit rebase(リベース)を実行し、マージのコンフリクトを解決することができます。 新しい操作:マージ&リベース それぞれの操作は、あるブランチから別のブランチにコミット履歴を結合する方法で、違いはその達成戦略にあります。初心者の方には、まずマージを使用することをお勧めします。なぜなら、それはブランチへの強制プッシュを必要とせず、したがってコミット履歴を書き換えないからです。リベースはプロジェクトの履歴をクリーンに保ちますが、その履歴を書き換えることがあり、問題を引き起こす可能性があります。Databricksは、チームが最も適している方法を選ぶことを可能にします。戦略の違いについて詳しくは、
Lakeviewダッシュボードがパブリックプレビューになりました!
翻訳:Saki Kitaoka. - Original Blog Link Databricksの次世代SQLダッシュボード「 Lakeview dashboards 」のパブリックプレビューを発表できることを嬉しく思います。本日より利用可能なこの新しいダッシュボードエクスペリエンスは、使いやすさ、幅広い配布、ガバナンス、セキュリティのために最適化されています。 Lakeview は、旧世代のダッシュボードと比較して、4 つの主要な改善点を提供します: ビジュアライゼーションの改善 : 新しいビジュアライゼーション・エンジンにより、美しくインタラクティブなチャートが最大10倍高速に描画されます。 共有と配布の最適化 : ドラフト/パブリッシュ機能により、ダッシュボードを自由に 編集することができます。Databricks ワークスペースに直接アクセスできない組織内のコンシューマーとも安全に共有できます。 シンプルなデザイン : WYSIWYG...