データサイエンス・ML

ページ 4

レイクハウス・モニタリング: データとAIの品質監視のための統合ソリューション

December 12, 2023 ジャクリーン・リー、アルキス・ポリゾティス、Kasey Uhlenhuth による投稿 in プラットフォームブログ

はじめに Databricks Lakehouse Monitoring (レイクハウス・モニタリング)を使用すると、データからフィーチャー、MLモデルまで、すべてのデータパイプラインを追加のツールや複雑な操作なしに監視できます。 Unity Catalog に組み込まれているため、ガバナンスと並行して品質を追跡し、データとAI資産のパフォーマンスについて深い洞察を得ることができます。Lakehouse Monitoringは完全にサーバーレスなので、インフラストラクチャやコンピュート構成のチューニングを心配する必要はありません。 Lakehouseのモニタリングに対する統一されたアプローチにより、 Databricks Data Intelligence Platform で直接、品質の追跡、エラーの診断、ソリューションの検索が簡単に行えます。Lakehouse Monitoringを最大限に活用する方法を本記事ではご紹介します。なぜレイクハウス・モニタリングなのか？データパイプラインは順調に動いているよう

リアルタイムの構造化データでRAGアプリケーションの応答品質を向上

December 8, 2023 マニ・パルケ、アクラティ・タラティ、スー・アン・ホン、クレイグ・ワイリー、チェネン・リャン、葛明陽による投稿 in データサイエンス・ML

Retrieval Augmented Generation（RAG ）は、Gen AIアプリケーションのコンテキストとして関連データを提供する効率的なメカニズムです。ほとんどのRAGアプリケーションは、通常、ドキュメントやWiki、サポートチケットなどの非構造化データから関連するコンテキストを検索するためにベクトルインデックスを使用します。昨日、私たちはDatabricks Vector Search Public Previewを発表しました。しかし、これらのテキストベースのコンテキストを、関連性のあるパーソナライズされた構造化データで補強することで、Gen AIの応答品質をさらに向上させることができます。小売業のウェブサイトで、顧客が"最近の注文はどこですか？" と問い合わせる、Gen AIツールを想像してみてください。このAIは、クエリが特定の購買に関するものであることを理解し、LLMを使用して応答を生成する前に、注文品目の最新の出荷情報を収集しなければなりません。このようなスケーラブルなアプ

Databricksで高品質のRAGアプリケーションを作成する

December 6, 2023 Patrick Wendell（パトリック・ウェンデル）、ハンリン・タンによる投稿 in お知らせ

RAG（Retrieval-Augmented-Generation ）は、独自のリアルタイムデータを LLM（Large Language Model）アプリケーションに組み込む強力な方法として、急速に台頭してきた。本日Databricksユーザーが企業データを使用して高品質な本番LLMアプリケーションを構築するためのRAGツール群を発表できることを嬉しく思う。 LLMは、新しいアプリケーションを迅速にプロトタイプ化する能力において、大きなブレークスルーをもたらした。しかし、RAGアプリケーションを構築している何千もの企業と仕事をした結果、彼らの最大の課題は、これらのアプリケーションを本番で用いることができる品質にすることであることがわかった。顧客向けアプリケーションに要求される品質基準を満たすためには、AIの出力は正確で、最新で、そして企業のコンテキストを認識し、安全でなければならない。高品質なRAGアプリケーションを構築するためには、開発者はデータとモデル出力の品質を理解するための豊富なツール

AI生成ドキュメンテーションのためにオーダーメイドLLMを作成する

November 21, 2023 Matthew Hayes、張宏毅、タオ・フェン、ザヒーラ・ヴァラニ、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

これは、大規模言語モデル（LLM）を使用して、Unityカタログのテーブルとカラムのドキュメントを自動的に生成するものです。私たちは、この機能がお客様から好評をいただいていることに身の引き締まる思いです。現在、 Databricksのテーブルメタデータ更新の80％以上がAI支援によるものです。このブログポストでは、既製のSaaSベースのLLMを使用したハッカソンプロトタイピングから、より良く、より速く、より安いオーダーメイドのLLMの作成まで、この機能を開発した私たちの経験を紹介します。この新しいモデルの開発には、2人のエンジニア、1ヶ月、1,000ドル未満の計算コストしかかかりませんでした(！) 私たちは、これらの学習がGenAIの幅広いユースケースに当てはまると考えているので、参考にしていただければ幸いです。さらに重要なのは、オープンソースLLMの急速な進歩を利用できるようになったことです。 AIが作成した文書とは？各データ・プラットフォームの中心には、データセット（多くの場合テーブル形式）の

集まれ！Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください！さて、今回はVol.6として満を持して登場、アマゾンウェブサービスジャパン合同会社本橋和貴様をご紹介します。 —- 以前にご紹介したLegendary...

分散XGBoostとLightGBMモデルの軽量なデプロイパターン

October 17, 2023 Jesse Heravi、ショーン・オーウェン、Marshall Carter、Nichole Lu、ブライアン・スミス（Bryan Smith）による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link データサイエンティストが機械学習ソリューションを開発する際に遭遇する一般的な課題は、サーバーのメモリに収まらないほど大きなデータセットでモデルをトレーニングすることです。これは、顧客の離反や傾向を予測するモデルをトレーニングする際に、数千万人のユニークな顧客を扱う必要がある場合に発生します。ある期間に行われた何億もの広告インプレッションに関連するリフトを計算する必要があるとき、このようなことが起こります。また、何十億ものオンラインインタラクションの異常行動を評価する必要がある場合にも、この問題が発生します。この課題を克服するために一般的に採用されているソリューションの1つは、Apache Sparkデータフレームに対して動作するようにモデルを書き換えることです。Sparkデータフレームでは、データセットはパーティションと呼ばれるより小さなサブセットに分割され、Sparkクラスタの集団リソースに分散されます。より多くのメモリが必要ですか

大手金融機関がデータブリックスを採用したワケは

October 11, 2023 Hisae Inoue による投稿 in Databricks ブログ

去る6月28日、サンフランシスコで開催されたDATA＋AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData＋AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート（6/27 Partner Summit） - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。...

Databricks Lakehouse AIでLlama 2 Foundation Modelsが利用可能になりました！

October 11, 2023 Kasey Uhlenhuth、Sid Murching、Lu Wang、Ankit Mathur、アフマド・ビラルによる投稿 in データサイエンス・ML

翻訳：Saki Kitaoka. - Original Blog Link 私たちは、Meta AIのLlama 2 チャットモデル ( Meta AI’s Llama 2 ) が Databricks Marketplace で利用可能になり、プライベートモデルのサービングエンドポイントに微調整してデプロイできることを発表できることを嬉しく思います。Databricksマーケットプレイスは、クラウド、リージョン、プラットフォーム間でデータアセット（データセットやノートブックを含む）を共有および交換できるオープンなマーケットプレイスです。既にマーケットプレイスで提供されているデータアセットに加え、この新しいリスティングは、7から70ビリオンのパラメータを持つLlama 2のチャット指向の大規模言語モデル（LLM）、およびUnityカタログの集中ガバナンスと系統追跡へのインスタントアクセスを提供します。各モデルはMLflowにラップされており、Databricksノートブックで MLflow Evaluation.

Databricks Model Servingを使用したプライベートLLMのデプロイ

September 28, 2023 アフマド・ビラル、Ankit Mathur、Kasey Uhlenhuth、Joshua Hartman による投稿 in データサイエンス・ML

翻訳：Saki Kitaoka. - Original Blog Link Databricks Model ServingのGPUおよびLLM最適化サポートのパブリックプレビューを発表できることを嬉しく思います！この発表により、LLMやVisionモデルを含む、あらゆるタイプのオープンソースまたは独自のカスタムAIモデルをLakehouseプラットフォーム上にデプロイできるようになります。Databricks Model Servingは、LLM Serving用にモデルを自動的に最適化し、設定なしでクラス最高のパフォーマンスを提供します。 Databricks Model Servingは、統合データおよびAIプラットフォーム上で開発された初のサーバーレスGPUサービング製品です。これにより、データの取り込みから微調整、モデルのデプロイ、モニタリングに至るまで、GenAIアプリケーションの構築とデプロイをすべて単一のプラットフォーム上で行うことができます。 Azure上のユーザーは、Model Serving

MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する

August 24, 2023 Kasey Uhlenhuth、Xiangrui Meng、ハゲイ・ルペスコ、ショーン・オーウェン、コーリー・ズマール、リャン・チャン、イナ・コレワ、ウラジミール・コロフスキー、Arpit Jasapara による投稿 in データサイエンス・ML

翻訳：Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG（Retrieval Augmented Generation）アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI（ Databricks Model Serving 経由）、プロプライエ