メインコンテンツへジャンプ
<
ページ 15
>

dbtとDatabricksを用いてコスパの良いリアルタイムデータ処理を行う

ビジネスが成長するにつれ、データ量はGBからTB(またはそれ以上)に拡大し、レイテンシー要求は数時間から数分(またはそれ以下)になり、ビジネスに新鮮な洞察を提供するためのコストはますます高くなります。これまでPythonやScalaのデータエンジニアは、このような需要に応えるためにストリーミングを利用し、新しいデータをリアルタイムで効率的に処理してきましたが、SQLベースのdbtパイプラインを拡張する必要があるアナリティクスエンジニアには、このような選択肢はありませんでした。 しかし今は違います!このブログでは、Databricks の新しいストリーミングテーブルとマテリアライズドビューを使用して、SQL と dbt のシンプルさで新鮮なリアルタイムのインサイトをビジネスに提供する方法を説明します。 背景 2023 Data + AI Summitでは、 Databricks SQLにストリーミングテーブルとマテリアライズドビューを導入 しました。この素晴らしい機能により、Databricks SQL ユーザーは

Databricks Unity CatalogとTredence UnityGO!でデータ共有からビジネス価値をさらに向上させましょう!

企業のリーダーは、ビジネスチームが洞察力を高め、より良い意思決定を行い、イノベーションを加速するために活用できる高品質なデータの集中ソースを作成するために、 Databricks Data Intelligence Platform を活用しています。 最近の 調査では、最高データ責任者(CDO)は、明確で効果的なデータガバナンスの確立(51%)、データ品質の向上(48%)、高度なアナリティクス機能の構築と維持(42%)、ビジネスインテリジェンス機能の構築と維持(36%)、データ収益化機能の開発(21%)、データ、アナリティクス、人工知能(AI)倫理の向上(21%)を望んでいると回答しています。データ変革が最重要課題であることは明らかです。 歴史的に、データ、IT、セキュリティの各チームは、データの統一と民主化に関連する以下の課題に取り組んできました: データの保護と管理: 企業チームは、大規模な言語モデルやドメイン固有のモデルの導入を急いでおり、これらのモデルは広範なクリーンデータを必要とするため、データガバナ

Databricks Vector Search パブリックプレビューのご紹介

昨日 発表した RAG(Retrieval Augmented Generation )に続き、本日、Databricks Vector Searchのパブリックプレビューを発表します。6月に開催されたData + AI Summitでは、限られたお客様を対象としたプライベートプレビューを発表しましたが、今回はすべてのお客様にご利用いただけるようになりました。Databricks Vector Searchは、PDF、Officeドキュメント、Wikiなどの非構造化ドキュメントに対する類似検索を通じて、開発者がRAG(Retrieval Augmented Generation)や生成AIアプリケーションの精度を向上させることを可能にします。Vector Search は Databricks Data Intelligence Platform の一部であり、RAG およびジェネレーティブ...

Databricksで高品質のRAGアプリケーションを作成する

RAG(Retrieval-Augmented-Generation )は、独自のリアルタイムデータを LLM(Large Language Model) アプリケーションに組み込む強力な方法として、急速に台頭してきた。 本日Databricksユーザーが企業データを使用して高品質な本番LLMアプリケーションを構築するためのRAGツール群を発表できることを嬉しく思う。 LLMは、新しいアプリケーションを迅速にプロトタイプ化する能力において、大きなブレークスルーをもたらした。 しかし、RAGアプリケーションを構築している何千もの企業と仕事をした結果、彼らの最大の課題は、これらのアプリケーションを 本番で用いることができる品質にすること であることがわかった。 顧客向けアプリケーションに要求される品質基準を満たすためには、AIの出力は正確で、最新で、そして企業のコンテキストを認識し、安全でなければならない。 高品質なRAGアプリケーションを構築するためには、開発者はデータとモデル出力の品質を理解するための豊富なツール

Partner Connectに新たに5つのインテグレーションを追加しました

Databricks Data Intelligence Platform のデータでパートナーソリューションを使用し、ビジネス要件に最適なものをシームレスに採用できるようにするワンストップポータルであるDatabricks Partner Connect に、新たに5つのインテグレーションを追加し、みなさまに紹介できることを嬉しく思っています。 この四半期で、Data Ingestionカテゴリに3社、Data GovernanceとMachine Learningの両方に1社のパートナーを追加しました。また、Partner Connectの機能を拡張し、パートナー製品の本番環境との直接統合をサポートするようになりました。 これは何を意味しているのでしょうか? Monte Carlo との統合は、これらの機能を活用しており、Databricksから Monte Carlo のアカウントに直接接続し、本番データパイプラインの品質監視を開始することができます。これは、エコシステム内のデータとAIツールへの接続をこれ

DatabricksがAWS ISV Partner of the Yearを受賞しました

November 28, 2023 ウィル・コリンズ による投稿 in
Databricksが北米のAWS ISV Partner of the Yearを受賞したことをお伝えできることを嬉しく思います。 この賞は、AWSを利用してコストを削減し、俊敏性を高め、イノベーションを加速させているトップISVパートナーを表彰するものです。 今回の受賞は、AWSとシームレスに統合されたシンプルで統合されたデータ・インテリジェンス・プラットフォームを提供する我々のパートナーシップと能力の強さを裏付けるものです。 Databricks はまた、以下の賞の最終選考にも残り、業界や地域を問わずデータとアナリティクスの専門性を実証したことが評価されました: ISVデータ&アナリティクス・パートナー・オブ・ザ・イヤー - グローバル インダストリー・パートナー・オブ・ザ・イヤー - リテール& コンシューマー・パッケージド・グッズ - グローバル インダストリーパートナー・オブ・ザ・イヤー - 広告・マーケティング部門 -...

サイバーセキュリティ・レイクハウス Part 4: データ正規化戦略

November 17, 2023 デレク・キング による投稿 in
この4部構成のブログ・シリーズ "Lessons learned from building Cybersecurity Lakehouses," では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用したソリューション、ヒント、コツ、ベスト・プラクティスを紹介する。 パート1では 、まず統一されたイベントのタイムスタンプ抽出から始めた。 パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。 そして パート3では 、半構造化された機械生成データの解析方法に取り組んだ。 このシリーズの最終回では、サイバーアナリティクスの最も重要な側面の1つである、 共通の情報モデルを使用したデータの正規化について 説明します。 このブログが終わるころには、サイバーセキュリティ・レイクハウスにデータを正規化する際に直面するいくつかの問題と、それを克服するために使用できるテクニックについて、しっか

Azure DatabricksでAzure コンフィデンシャル コンピューティング(ACC)サポートが一般提供開始しました

本日、 Azure Databricksの Azureコンフィデンシャル・コンピューティング (ACC)サポートの一般提供を 発表 できることを嬉しく思います! Azureコンフィデンシャル・コンピューティングのサポートにより、顧客はAMDベースのAzureコンフィデンシャル仮想マシン(VM)で使用中またはメモリ内のデータを保護することで、Databricks上で機密性とプライバシーを高めたエンドツーエンドのデータプラットフォームを構築できます。 この種のデータ保護は、静止データ用の 顧客管理キーや 、転送中のデータ用のTLS暗号化付き プライベートリンクなど 、既存のAzure Databricksコントロールを使用した機密データの保護を補完するものです。 その結果、Azure コンフィデンシャル VM上で稼働するAzure Databricksクラスタは、包括的なエンドツーエンドの暗号化ソリューションによって保護され、ライフサイクル全体を通じてデータを保護します。 ワークロードを実行するACC VMを選択する

データ・インテリジェンス・プラットフォーム

「 ソフトウェアが世界を食べている 」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなく AIがすべてのソフトウェアを食べるようになる と考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。 その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。 これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォー

サイバーセキュリティ・レイクハウス Part 3: データ解析戦略

November 10, 2023 デレク・キング による投稿 in
この4部構成のブログシリーズ ("Lessons learned from building Cybersecurity Lakehouses," )では、サイバーセキュリティ・データ用のレイクハウスを構築する際に組織がデータエンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用した解決策、ヒント、コツ、ベストプラクティスを紹介する。 パート1では 、まず統一されたイベントのタイムスタンプ抽出から始めた。 パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。 この第3回目のブログでは、 メダリオンアーキテクチャを 指針として、 半構造化機械生成データの解析に関する いくつかの問題に取り組む。 このブログでは、ログ生成データを解析する際に直面する課題について概説し、アナリストが異常な行動、潜在的な侵害、侵害の指標に関する洞察を得るために、データを正確に取得し、解析するためのガイダンスとベストプラクティスを提供します。 このブログが終わる頃には、Cybers