分散XGBoostとLightGBMモデルの軽量なデプロイパターン
翻訳:Saki Kitaoka. - Original Blog Link データサイエンティストが機械学習ソリューションを開発する際に遭遇する一般的な課題は、サーバーのメモリに収まらないほど大きなデータセットでモデルをトレーニングすることです。これは、顧客の離反や傾向を予測するモデルをトレーニングする際に、数千万人のユニークな顧客を扱う必要がある場合に発生します。ある期間に行われた何億もの広告インプレッションに関連するリフトを計算する必要があるとき、このようなことが起こります。また、何十億ものオンラインインタラクションの異常行動を評価する必要がある場合にも、この問題が発生します。 この課題を克服するために一般的に採用されているソリューションの1つは、Apache Sparkデータフレームに対して動作するようにモデルを書き換えることです。Sparkデータフレームでは、データセットはパーティションと呼ばれるより小さなサブセットに分割され、Sparkクラスタの集団リソースに分散されます。 より多くのメモリが必要ですか
大規模言語モデル(LLM)を用いた商品レビューの自動分析
Check out our LLM Solution Accelerators for Retail for more details and to download the notebooks. 翻訳:Junichi Maruyama. - Original Blog Link 会話AIはここ数カ月で多くのメディアの注目を集めたが、大規模言語モデル(LLM)の能力は会話のやり取りをはるかに超えている。クエリ応答、要約、分類、検索など、あまり目立たない機能にこそ、多くの組織が労働力を強化し、顧客体験をレベルアップするための直接的な機会を見出している。...
MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する
翻訳:Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG(Retrieval Augmented Generation)アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI( Databricks Model Serving 経由)、プロプライエ
機械学習を向上させる合成データ
Original Blog : Synthetic Data for Better Machine Learning 翻訳: junichi.maruyama この1年で最も話題になった、 ChatGPT や DALL-E のような生成AIの進化を試したことがある人も多いでしょう。これらのツールは、複雑なデータを消費し、より多くのデータを生成することで、驚くほど知的なもののように感じられるのです。これらやその他の新しいアイデア( diffusion models 、 generative adversarial networks 、GAN)は、遊んでみると楽しく、恐ろしいとさえ感じます。...
Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング
Original Blog : Fine-Tuning Large Language Models with Hugging Face and DeepSpeed 翻訳: junichi.maruyama ChatGPTのセンセーショナルなリリースを受け、大規模言語モデル(LLM)が現在脚光を浴びています。多くの人が、このようなモデルを自分のアプリケーションでどのように活用できるかを考えています。しかし、これは変換器ベースのモデルのいくつかの進歩の一つに過ぎず、他の多くのモデルは、チャットだけでなく、翻訳、分類、要約などのタスクでオープンかつ容易に利用できます。 以前のブログ では、人気のある Hugging Face トランスフォーマーライブラリを通じて、Databricks上でこれらのモデルにアクセスするための基本的な方法を説明しました。 T5 や BERT...