MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する
翻訳:Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG(Retrieval Augmented Generation)アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI( Databricks Model Serving 経由)、プロプライエ
MetaのLlama 2とDatabricksでジェネレーティブAIアプリを構築する
翻訳:Junichi Maruyama. - Original Blog Link 本日、Meta社は最新の大規模言語モデル(LLM)である Llama 2 をオープンソースとして公開し、商用利用を開始した1。これはオープンソースAIにとって重要な進展であり、ローンチ・パートナーとしてMetaと協力できたことはエキサイティングでした。私たちは、Llama 2のモデルを事前に試すことができ、その能力とあらゆる可能性のあるアプリケーションに感銘を受けました。 今年初め、メタ社は LLaMA をリリースし、オープンソース(OSS)LLMのフロンティアを大きく前進させた。v1モデルは商用利用はできないが、生成AIとLLMの研究を大きく加速させた。 Alpaca と Vicuna は、高品質な指示フォローとチャットデータがあれば、LLaMAをChatGPTのように振る舞うようにファインチューニングできることを実証した。この研究結果に基づいて、Databricksは databricks-dolly-15k 命令追跡データセ
Apache Sparkのための新しいプログラミング言語としての「英語」
翻訳: Masahiko Kitamura オリジナル記事: Introducing English as the New Programming Language for Apache Spark はじめに 私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します! 動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され
Databricks ❤️ Hugging Face
Original Blog : Databricks ❤️ Hugging Face 翻訳: junichi.maruyama ジェネレーティブAIが世界を席巻しています。データ&AIカンパニーである私たちは、オープンソースの大規模言語モデル「Dolly」と、そのファインチューニングに使用した研究・商用利用のための社内クラウドソーシングデータセット「databricks-dolly-15k」をリリースし、この旅に参加しています。モデルもデータセットも、Hugging Faceで公開されています。そして今日、私たちはHugging Faceコードベースへの最初の公式コミットを発表し、ユーザーがApache Spark™データフレームからHugging Faceデータセットを簡単に作成できるようにすることに興奮しています。 「Databricksがモデルやデータセットをコミュニティに公開することは素晴ら しいことですが、今回、Hugging Faceに直接オープンソースを提供することで、その作業を拡張していることがわか
Dolly:オープンなモデルで ChatGPT の魔法を民主化
概要 Databricks では、従来のオープンソースの大規模言語モデル(LLM)を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...
DatabricksとApache Spark ClustersにおけるRayのサポートを発表
Original : Announcing Ray support on Databricks and Apache Spark Clusters 翻訳: junichi.maruyama Ray は、スケーラブルなAIおよびPythonワークロードを実行するための著名なコンピュートフレームワークで、さまざまな分散機械学習ツール、大規模なハイパーパラメータチューニング機能、強化学習アルゴリズム、モデル提供などを提供します。同様に、Apache Spark™は、 Spark MLlib や、 XGBoost , TensorFlow...