プラットフォーム | Databricks Blog

ページ 16

Databricks Vector Search パブリックプレビューのご紹介

December 7, 2023 アキル・グプタ、セルゲイ・ツァレフ、エリック・ピーターによる投稿 in エンジニアリングのブログ

昨日発表した RAG(Retrieval Augmented Generation )に続き、本日、Databricks Vector Searchのパブリックプレビューを発表します。6月に開催されたData + AI Summitでは、限られたお客様を対象としたプライベートプレビューを発表しましたが、今回はすべてのお客様にご利用いただけるようになりました。Databricks Vector Searchは、PDF、Officeドキュメント、Wikiなどの非構造化ドキュメントに対する類似検索を通じて、開発者がRAG（Retrieval Augmented Generation）や生成AIアプリケーションの精度を向上させることを可能にします。Vector Search は Databricks Data Intelligence Platform の一部であり、RAG およびジェネレーティブ...

Databricksで高品質のRAGアプリケーションを作成する

December 6, 2023 Patrick Wendell（パトリック・ウェンデル）、Hanlin Tang による投稿 in お知らせ

RAG（Retrieval-Augmented-Generation ）は、独自のリアルタイムデータを LLM（Large Language Model）アプリケーションに組み込む強力な方法として、急速に台頭してきた。本日Databricksユーザーが企業データを使用して高品質な本番LLMアプリケーションを構築するためのRAGツール群を発表できることを嬉しく思う。 LLMは、新しいアプリケーションを迅速にプロトタイプ化する能力において、大きなブレークスルーをもたらした。しかし、RAGアプリケーションを構築している何千もの企業と仕事をした結果、彼らの最大の課題は、これらのアプリケーションを本番で用いることができる品質にすることであることがわかった。顧客向けアプリケーションに要求される品質基準を満たすためには、AIの出力は正確で、最新で、そして企業のコンテキストを認識し、安全でなければならない。高品質なRAGアプリケーションを構築するためには、開発者はデータとモデル出力の品質を理解するための豊富なツール

Partner Connectに新たに5つのインテグレーションを追加しました

November 30, 2023 ライリー・マリス、ザヒーラ・ヴァラニ、マラキ・ケテマ、松本大河、ブレヒト・ムーラン、リジェン・シアンによる投稿 in プラットフォーム

Databricks Data Intelligence Platform のデータでパートナーソリューションを使用し、ビジネス要件に最適なものをシームレスに採用できるようにするワンストップポータルであるDatabricks Partner Connect に、新たに5つのインテグレーションを追加し、みなさまに紹介できることを嬉しく思っています。この四半期で、Data Ingestionカテゴリに3社、Data GovernanceとMachine Learningの両方に1社のパートナーを追加しました。また、Partner Connectの機能を拡張し、パートナー製品の本番環境との直接統合をサポートするようになりました。これは何を意味しているのでしょうか？ Monte Carlo との統合は、これらの機能を活用しており、Databricksから Monte Carlo のアカウントに直接接続し、本番データパイプラインの品質監視を開始することができます。これは、エコシステム内のデータとAIツールへの接続をこれ

DatabricksがAWS ISV Partner of the Yearを受賞しました

November 28, 2023 ウィル・コリンズによる投稿 in プラットフォーム

Databricksが北米のAWS ISV Partner of the Yearを受賞したことをお伝えできることを嬉しく思います。この賞は、AWSを利用してコストを削減し、俊敏性を高め、イノベーションを加速させているトップISVパートナーを表彰するものです。今回の受賞は、AWSとシームレスに統合されたシンプルで統合されたデータ・インテリジェンス・プラットフォームを提供する我々のパートナーシップと能力の強さを裏付けるものです。 Databricks はまた、以下の賞の最終選考にも残り、業界や地域を問わずデータとアナリティクスの専門性を実証したことが評価されました： ISVデータ＆アナリティクス・パートナー・オブ・ザ・イヤー - グローバルインダストリー・パートナー・オブ・ザ・イヤー - リテール& コンシューマー・パッケージド・グッズ - グローバルインダストリーパートナー・オブ・ザ・イヤー - 広告・マーケティング部門 -...

サイバーセキュリティ・レイクハウス Part 4: データ正規化戦略

November 17, 2023 デレク・キングによる投稿 in プラットフォーム

この4部構成のブログ・シリーズ "Lessons learned from building Cybersecurity Lakehouses," では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用したソリューション、ヒント、コツ、ベスト・プラクティスを紹介する。パート1では、まず統一されたイベントのタイムスタンプ抽出から始めた。パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。そしてパート3では、半構造化された機械生成データの解析方法に取り組んだ。このシリーズの最終回では、サイバーアナリティクスの最も重要な側面の1つである、共通の情報モデルを使用したデータの正規化について説明します。このブログが終わるころには、サイバーセキュリティ・レイクハウスにデータを正規化する際に直面するいくつかの問題と、それを克服するために使用できるテクニックについて、しっか

Azure DatabricksでAzure コンフィデンシャルコンピューティング（ACC）サポートが一般提供開始しました

November 16, 2023 ケリー・アルバノ、Samrat Ray による投稿 in プラットフォーム

本日、 Azure Databricksの Azureコンフィデンシャル・コンピューティング（ACC）サポートの一般提供を発表できることを嬉しく思います！ Azureコンフィデンシャル・コンピューティングのサポートにより、顧客はAMDベースのAzureコンフィデンシャル仮想マシン（VM）で使用中またはメモリ内のデータを保護することで、Databricks上で機密性とプライバシーを高めたエンドツーエンドのデータプラットフォームを構築できます。この種のデータ保護は、静止データ用の顧客管理キーや、転送中のデータ用のTLS暗号化付きプライベートリンクなど、既存のAzure Databricksコントロールを使用した機密データの保護を補完するものです。その結果、Azure コンフィデンシャル VM上で稼働するAzure Databricksクラスタは、包括的なエンドツーエンドの暗号化ソリューションによって保護され、ライフサイクル全体を通じてデータを保護します。ワークロードを実行するACC VMを選択する

データ・インテリジェンス・プラットフォーム

November 15, 2023 Michael Armbrust、Adam Conway（アダム・コンウェイ）、Ali Ghodsi（アリ・ゴディシ）、ナヴィーン・ラオ、Arsalan Tavakoli-Shiraji（アルサラン・タバコリ・シラジ）、Patrick Wendell（パトリック・ウェンデル）、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in プラットフォーム

「ソフトウェアが世界を食べている」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなく AIがすべてのソフトウェアを食べるようになると考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォー

サイバーセキュリティ・レイクハウス Part 3: データ解析戦略

November 10, 2023 デレク・キングによる投稿 in プラットフォーム

この4部構成のブログシリーズ（"Lessons learned from building Cybersecurity Lakehouses," ）では、サイバーセキュリティ・データ用のレイクハウスを構築する際に組織がデータエンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用した解決策、ヒント、コツ、ベストプラクティスを紹介する。パート1では、まず統一されたイベントのタイムスタンプ抽出から始めた。パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。この第3回目のブログでは、メダリオンアーキテクチャを指針として、半構造化機械生成データの解析に関するいくつかの問題に取り組む。このブログでは、ログ生成データを解析する際に直面する課題について概説し、アナリストが異常な行動、潜在的な侵害、侵害の指標に関する洞察を得るために、データを正確に取得し、解析するためのガイダンスとベストプラクティスを提供します。このブログが終わる頃には、Cybers

あらゆるユースケースに対応するストリーミング・アーキテクチャが必要な時が来た！

November 9, 2023 マット・ジョーンズによる投稿 in プラットフォーム

今日のデータ主導の世界では、企業はかつてない規模のデータを効率的に取り込み、処理するという課題に直面している。常に生成されるビジネスクリティカルなデータの量と多様性により、アーキテクチャの可能性は無限に近い。良いニュースは？これはまた、スループット、レイテンシー、コスト、運用効率など、データアーキテクチャをさらに最適化できる可能性が常にあることを意味する。多くのデータ専門家は、"データストリーミング" や"ストリーミングアーキテクチャ" といった用語を、ほとんどのワークロードにとって複雑でコストがかかり、実用的でないように見える超低レイテンシのデータパイプラインと関連付けている。しかし、Databricks Lakehouse Platform上でストリーミングデータアーキテクチャを採用したチームは、ほとんどの場合、スループットの向上、運用オーバーヘッドの削減、コストの大幅削減というメリットを得ることができます。これらのユーザーの中には、サブ秒単位のレイテンシーでリアルタイムにジョブを実行する者も

Databricksワークスペースに組み込まれたガバナンス機能

November 8, 2023 ポール・ルーム、サチン・タクールによる投稿 in 製品

Databricks Unity Catalogは、組織がさまざまなデータとAI資産を安全に発見、アクセス、監視、コラボレーションできる統合ソリューションを提供することで、データとAIのガバナンスを簡素化します。これにはテーブル、MLモデル、ファイル、関数が含まれ、最終的に生産性を高め、Lakehouse環境の可能性を最大限に引き出します。本日、Unity CatalogがAWSとAzure上の新しいプレミアム・ワークスペースに事前設定され、アクセス可能になったことを発表できることを嬉しく思います。この機能は、アカウントや地域ごとに順次展開されます。詳しくは担当者にお問い合わせください。 Unityカタログで事前設定されたワークスペースの概要ワークスペースにいくつかの新機能が追加されていることにお気づきでしょう。ワークスペースは、Unityカタログへのアクセス設定済みで提供されます！アカウント管理者によるその後の有効化手順は必要ありません。ワークスペースにちなんだ名前のカタログが見つかります（こ