メインコンテンツへジャンプ
<
ページ 9
>

HiveテーブルをUnityカタログにアップグレードする方法

このブログでは、Hiveメタストア(HMS)*テーブルをUnityカタログ(UC)にシームレスにアップグレードする方法を、アップグレードするHMSテーブルのバリエーションに応じて異なる方法を使用して、例を挙げて説明します。 *注: Hiveメタストアは、デフォルト、外部メタストア、またはAWS Glue Data Catalogでもかまいません。 簡略化のため、本書では"Hive メタストア" という用語を使用します。 詳細を説明する前に、アップグレードの手順を説明しよう。 評価 - このステップでは、アップグレード対象として特定された既存の HMS テーブルを評価し、アップグレードの適切なアプローチを決定します。 このステップについては、このブログで説明します。 作成 - このステップでは、メタストア、カタログ、スキーマ、ストレージ資格情報、外部ロケーションなど、必要なUCアセットを作成します。 詳細については、ドキュメント( AWS 、 Azure...

Databricks UnityカタログにおけるAI生成ドキュメントのパブリックプレビューを発表

翻訳:Saki Kitaoka. - Original Blog Link 本日、 Databricks Unity Catalog のAI生成ドキュメンテーションのパブリックプレビューを発表します。この機能は、生成AIを活用し、テーブルやカラムの説明やコメントの追加を自動化することで、組織のデータやAI資産の文書化、キュレーション、ディスカバリーを簡素化します。 今日のデータ主導の状況では、データは情報に基づいた意思決定の基盤であり、チームワークの強固な基盤を確立するには、シームレスなデータの発見性と明確性が重要です。しかし、データチームはしばしば、包括的なデータ説明がないために文脈が理解できないという重大な課題に直面します。この不足は、ユーザーがデータの潜在能力を十分に活用する妨げとなるため、このギャップを埋める簡素なデータ記述の必要性が強調されています。 さらに、表や列の適切なメタデータや説明文がないことが問題を複雑にしており、その結果、いくつかの問題が生じています: データの曖昧さ : データの曖昧さ:表

Databricks on Google Cloudの新しいプラットフォームセキュリティ制御でワークスペースを保護する

Databricks on Google Cloudのいくつかの主要なセキュリティ機能の一般提供(GA)を発表できることを嬉しく思います: プライベート・サービス・コネクト(PSC)によるプライベート接続 顧客が管理する暗号化キー アカウント・コンソールおよびAPIアクセス用のIPアクセス・リスト Databricks では、データはお客様の最も貴重な資産であると認識しています。 これらの重要なセキュリティ機能のGAを使用することで、 Databricks Lakehouse Platform 上で静止状態のデータを保護し、データを非公開に保ち、データ流出のリスクを軽減することができます。 このブログでは、よくあるセキュリティの質問を取り上げ、Google Cloudで利用できるようになった新しいセキュリティ機能と機能を説明します。 プライベート・サービス・コネクトによるエンド・ツー・エンドのプライベート・ワークスペース ほとんどの企業顧客は、ユーザーとワークロードがプライベートで隔離された環境でセキュリティデー

集まれ!Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 [email protected] による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています!できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください! さて、今回はVol.6として満を持して登場、 アマゾン ウェブ サービス ジャパン合同会社 本橋 和貴 様 をご紹介します。 —- 以前にご紹介したLegendary...

Spark JDBCを使用してリアルタイムのSAP HANAデータをDatabricksにフェデレートする最速の方法

翻訳:Junichi Maruyama. - Original Blog Link SAPが最近発表したDatabricksとの戦略的パートナーシップは、SAPの顧客の間で大きな興奮を呼んでいる。データとAIのエキスパートであるDatabricksは、SAP HANAとDatabricksを統合することで、アナリティクスとML/AI機能を活用するための魅力的な機会を提供します。このコラボレーションの大きな関心を受け、私たちはディープダイブ・ブログ・シリーズに着手することになりました。 多くのお客様のシナリオでは、SAP HANAシステムは、SAP CRM、SAP ERP/ECC、SAP BWなど、さまざまなソースシステムからのデータ基盤の主要なエンティティとして機能しています。そして今、この堅牢なSAP HANA分析サイドカーシステムをDatabricksとシームレスに統合し、組織のデータ機能をさらに強化するエキサイティングな可能性が生まれました。SAP HANA(HANA Enterprise Editionラ

DatabricksがISO 27701認証を取得しました

翻訳:Saki Kitaoka. - Original Blog Link Databricks がデータ処理業者として国際標準化機構 (ISO) 27701 認証を取得したことをお知らせします。この認証は、プライバシーに対する当社のコミットメントを反映したものであり、顧客データを取り扱う際のDatabricksのプライバシー慣行について、第三者による検証をお客様に提供するものです。 ISO/IEC 27701:2019とは何ですか? ISO 27701認証は、ISO/IEC 27001のプライバシー管理拡張版であり、組織のコンテキスト内でプライバシー情報管理システム(PIMS)を確立、実装、維持、および継続的に改善するためのガイダンスを提供します。この規格への準拠は、DatabricksのPIMSが欧州一般データ保護規則(GDPR)、カリフォルニア州消費者プライバシー法(CCPA)、およびその他のデータプライバシー規制への準拠をサポートしていることを示すものです。 Databricksの認定についてさらに詳しく

Databricksワークフローによるデータ分析のオーケストレーション

October 18, 2023 Matthew Kuehn による投稿 in プラットフォームブログ
翻訳:Saki Kitaoka. - Original Blog Link データドリブンな企業にとって、データアナリストはデータから洞察を引き出し、それを意味のある形で提示する上で重要な役割を担っています。しかし、多くのアナリストは、本番用のワークロードを自動化するために必要なデータオーケストレーションに精通していない可能性があります。アドホックなクエリをいくつか実行すれば、直前のレポート用に適切なデータを迅速に作成できますが、データチームは、さまざまな処理、変換、検証タスクを適切な順序で確実に実行する必要があります。適切なオーケストレーションが行われないと、データチームはパイプラインの監視、障害のトラブルシューティング、依存関係の管理ができなくなります。その結果、当初は即効性のある価値をビジネスにもたらしたアドホックなクエリセットが、それらを構築したアナリストにとって長期的な頭痛の種になってしまいます。 パイプラインの自動化とオーケストレーションは、データの規模が大きくなり、パイプラインの複雑さが増すにつれて

「推論テーブル」の発表: AIモデルのモニタリングと診断を簡素化

翻訳:Saki Kitaoka. - Original Blog Link AIモデルを導入してみたものの、実世界で予想外の結果が出たという経験はありませんか? モデルのモニタリングは、そのデプロイと同じくらい重要です。そこで、AIモデルのモニタリングと診断を簡素化するInference Tablesをご紹介します。Inference Tablesを使用すると、 Databricks Model Serving エンドポイントからの入力と予測を継続的にキャプチャし、Unity Catalog Delta Tableに記録することができます。その後、Lakehouse Monitoringなどの既存のデータツールを活用して、AIモデルを監視、デバッグ、最適化できます。 推論テーブルは、LakehouseプラットフォームでAIを実行する際に得られる価値の素晴らしい例です。複雑さやコストを追加することなく、デプロイされたすべてのモデルでモニタリングを有効にすることができます。これにより、問題を早期に検出し、再トレーニン

Databricks SQLステートメント実行APIの一般提供(GA)を開始しました!

翻訳:Saki Kitaoka. - Original Blog Link 本日、AWS および Azure 上で Databricks SQL ステートメント実行 API の一般提供を開始することを発表します。このAPIを利用することで、REST API経由でDatabricks SQLウェアハウスに接続し、 Databricks Lakehouse Platform が管理するデータにアクセスして操作することができます。 このブログでは、API の基本を説明し、GA...

Databricksアセットバンドルのパブリックプレビューを発表:簡単にソフトウェア開発のベストプラクティスを適用可能に!

翻訳:Saki Kitaoka. - Original Blog Link Databricksアセットバンドル( Databricks Asset Bundles )が現在パブリックプレビューで利用可能になりました! 略して「バンドル」と呼ばれるこれらは、ソースコントロール、コードレビュー、テスト、継続的インテグレーションおよびデリバリー(CI/CD)を含む、ソフトウェアエンジニアリングのベストプラクティスの採用を容易にします。バンドルによって、データエンジニア、データサイエンティスト、およびMLエンジニアは、データ、分析、およびAIプロジェクトをソースファイルとして表現することができます。これらのソースファイルは、プロジェクトのエンドツーエンドの定義を提供し、Lakehouseにどのようにテストおよびデプロイされるべきかを含みます。この定義は、簡単に編集、テスト、およびデプロイすることができます。 テストとデプロイを自動化する CI/CDは、現代のソフトウェア開発において本質的であり、テストとデプロイを自動化