メインコンテンツへジャンプ
<
ページ 2
>
Engineering blog

AI生成ドキュメンテーションのためにオーダーメイドLLMを作成する

これは、大規模言語モデル(LLM)を使用して、Unityカタログのテーブルとカラムのドキュメントを自動的に生成するものです 。 私たちは、この機能がお客様から好評をいただいていることに身の引き締まる思いです。 現在、 Databricksのテーブルメタデータ更新の80%以上がAI支援による ものです。 このブログポストでは、既製のSaaSベースのLLMを使用したハッカソンプロトタイピングから、より良く、より速く、より安いオーダーメイドのLLMの作成まで、この機能を開発した私たちの経験を紹介します。 この新しいモデルの開発には、2人のエンジニア、1ヶ月、1,000ドル未満の計算コストしかかかりませんでした(!) 私たちは、これらの学習がGenAIの幅広いユースケースに当てはまると考えているので、参考にしていただければ幸いです。 さらに重要なのは、オープンソースLLMの急速な進歩を利用できるようになったことです。 AIが作成した文書とは? 各データ・プラットフォームの中心には、データセット(多くの場合テーブル形式)の
Engineering blog

集まれ!Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 [email protected] による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています!できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください! さて、今回はVol.6として満を持して登場、 アマゾン ウェブ サービス ジャパン合同会社 本橋 和貴 様 をご紹介します。 —- 以前にご紹介したLegendary...
Engineering blog

分散XGBoostとLightGBMモデルの軽量なデプロイパターン

翻訳:Saki Kitaoka. - Original Blog Link データサイエンティストが機械学習ソリューションを開発する際に遭遇する一般的な課題は、サーバーのメモリに収まらないほど大きなデータセットでモデルをトレーニングすることです。これは、顧客の離反や傾向を予測するモデルをトレーニングする際に、数千万人のユニークな顧客を扱う必要がある場合に発生します。ある期間に行われた何億もの広告インプレッションに関連するリフトを計算する必要があるとき、このようなことが起こります。また、何十億ものオンラインインタラクションの異常行動を評価する必要がある場合にも、この問題が発生します。 この課題を克服するために一般的に採用されているソリューションの1つは、Apache Sparkデータフレームに対して動作するようにモデルを書き換えることです。Sparkデータフレームでは、データセットはパーティションと呼ばれるより小さなサブセットに分割され、Sparkクラスタの集団リソースに分散されます。 より多くのメモリが必要ですか
Engineering blog

大手金融機関がデータブリックスを採用したワケは

October 12, 2023 [email protected] による投稿 in Databricks ブログ
去る6月28日、サンフランシスコで開催されたDATA+AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData+AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート(6/27 Partner Summit) - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。...
Engineering blog

Databricks Lakehouse AIでLlama 2 Foundation Modelsが利用可能になりました!

翻訳:Saki Kitaoka. - Original Blog Link 私たちは、Meta AIのLlama 2 チャットモデル ( Meta AI’s Llama 2 ) が Databricks Marketplace で利用可能になり、プライベートモデルのサービングエンドポイントに微調整してデプロイできることを発表できることを嬉しく思います。Databricksマーケットプレイスは、クラウド、リージョン、プラットフォーム間でデータアセット(データセットやノートブックを含む)を共有および交換できるオープンなマーケットプレイスです。既にマーケットプレイスで提供されているデータアセットに加え、この新しいリスティングは、7から70ビリオンのパラメータを持つLlama 2のチャット指向の大規模言語モデル(LLM)、およびUnityカタログの集中ガバナンスと系統追跡へのインスタントアクセスを提供します。各モデルはMLflowにラップされており、Databricksノートブックで MLflow Evaluation.
Engineering blog

Databricks Model Servingを使用したプライベートLLMのデプロイ

翻訳:Saki Kitaoka. - Original Blog Link Databricks Model ServingのGPUおよびLLM最適化サポートのパブリックプレビューを発表できることを嬉しく思います!この発表により、LLMやVisionモデルを含む、あらゆるタイプのオープンソースまたは独自のカスタムAIモデルをLakehouseプラットフォーム上にデプロイできるようになります。Databricks Model Servingは、LLM Serving用にモデルを自動的に最適化し、設定なしでクラス最高のパフォーマンスを提供します。 Databricks Model Servingは、統合データおよびAIプラットフォーム上で開発された初のサーバーレスGPUサービング製品です。これにより、データの取り込みから微調整、モデルのデプロイ、モニタリングに至るまで、GenAIアプリケーションの構築とデプロイをすべて単一のプラットフォーム上で行うことができます。 Azure上のユーザーは、Model Serving
Engineering blog

MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する

翻訳:Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG(Retrieval Augmented Generation)アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI( Databricks Model Serving 経由)、プロプライエ
Engineering blog

集まれ!Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 [email protected] による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 5として、前回のVol4 に引き続き 株式会社ナレッジコミュニケーション様 から 山川 将也 様 をご紹介します。 —- 以前にご紹介したLegendary...
Engineering blog

MLflow AI Gatewayの発表

翻訳:Junichi Maruyama. - Original Blog Link 大規模言語モデル(LLM)は、SQLウェアハウスに保存されたテキストデータのセンチメント分析から、製品に関するニュアンスの異なる質問に回答するリアルタイムのチャットボットの導入まで、ビジネス価値を提供する幅広い潜在的なユースケースを解き放ちます。 しかし、これらのアプリケーションのために強力なSaaSやオープンソースのLLMへのアクセスを民主化するには、セキュリティ、コスト、データ関連のさまざまな課題が伴います。 例えば、企業全体で SaaS LLM API トークンを効果的に管理するという具体的な課題を考えてみよう: チームがAPIトークンをプレーンテキストとして通信に貼り付けることによるセキュリティの問題 共有キーがアプリケーションのクラッシュやレート制限の乱用によるコストのピークにつながるというコストの問題 各チームがガードレールなしで独自のAPIトークンを管理することによるガバナンスの問題 これらの課題は、組織がイノベーシ
Engineering blog

集まれ!Legendary Heroes of DATA + AI !! Vol 4 

June 29, 2023 [email protected] による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 4として、 株式会社ナレッジコミュニケーション 小山 翼 様 をご紹介します。 —- 以前にご紹介したLegendary Heroes of...