ファインチューニングされたラマモデルに対するバッチ推論とMosaic AIモデル提供
序章 本番環境向け、スケーラブルでフォールトトレラントな生成型AIソリューションを構築するには、信頼性の高いLLMの利用可能性が必要です。あなたのLLMエンドポイントは、専用の計算をあなたのワークロードのために持つことで需要を満たす準備ができている必要があります。必要に応じて容量をスケーリングし、一貫したレイテンシを持ち、すべてのインタラクションをログに記録する能力、そして予測可能な価格設定を持つことが求められます。このニーズを満たすために、Databricksは プロビジョニングされたスループットエンドポイント を、各種の高性能基盤モデル(全ての主要なラマモデル、DBRX、ミストラルなど)で提供しています。しかし、最新で最も性能の高い微調整されたLlama 3.1と3.2のバリアントを提供することはどうでしょうか?NVIDIAの Nemotron 70Bモデル は、Llama 3.1の微調整されたバリアントで、多様なベンチマークで競争力のあるパフォーマンスを示しています。Databricksの最近の革新により、
Providence Health:Databricks Mosaic AIを使用したML/AIプロジェクトのスケーリング
Providence Healthの広範なネットワーク は50以上の病院と複数の州にまたがるその他の施設を包含しており、特定の部門内での患者数と日々の患者数を予測することは多くの課題を伴います。この情報は、短期および長期のスタッフニーズ、患者の転送、一般的な運用認識についての情報提供を行うために重要です。Databricksの採用初期段階では、Providenceは新しいリクエストを迅速に進め、探索を支援し、多くの場合初期の予測を提供するシンプルな基準患者数モデルを作成することを目指しました。また、この患者数をほぼリアルタイムで数千の部門をサポートするようにスケーリングするには一部の作業が必要だと認識しました。 私たちは、 Databricks Mosaic AI ツールの実装を開始しました Databricks AutoML を使用しています。スケジュールされたワークフローが実行されるたびに、数行のコードから自動的に予測を実行する能力を高く評価しました。AutoMLは詳細なモデル設定を必要とせず、データを初めて
Aimpoint Digital:Databricksにおける安全で効率的なマルチリージョンモデル提供のためのDelta Sharingの活用
機械学習モデルを提供する際、 遅延 は、予測をリクエストしてからレスポンスを受け取るまでの時間であり、エンドユーザーにとって最も重要な指標の一つです。遅延は、リクエストがエンドポイントに到達する時間、モデルによって処理される時間、そしてユーザーに戻る時間を含みます。異なる地域に基づくユーザーにモデルを提供すると、リクエストとレスポンスの両方の時間が大幅に増加する可能性があります。顧客が基づいている地域とは異なる地域でモデルをホスティングし、提供している企業を想像してみてください。この地理的な分散は、データがクラウドストレージから移動する際の高いエグレスコストを発生させ、2つの仮想ネットワーク間のピアリング接続と比較してセキュリティが低下します。 地域間の遅延の影響を示すために、ヨーロッパから米国にデプロイされたモデルエンドポイントへのリクエストは、ネットワーク遅延として100-150ミリ秒を追加することができます。対照的に、米国内のリクエストは、この Azureネットワークの往復遅延統計 ブログから抽出した情報に
Logically AIでGPU推論をターボチャージ!
2017年に設立された Logically は、AIを使用してクライアントのインテリジェンス能力を強化する分野のリーダーです。ウェブサイト、ソーシャルプラットフォーム、その他のデジタルソースから大量のデータを処理し分析することで、Logicallyは潜在的なリスク、新たな脅威、重要なナラティブを特定し、それらをサイバーセキュリティチーム、プロダクトマネージャー、エンゲージメントリーダーが迅速かつ戦略的に行動できるように整理します。 GPU加速はLogicallyのプラットフォームの重要な要素であり、高度に規制されたエンティティの要件を満たすためのナラティブの検出を可能にします。GPUを使用することで、Logicallyは訓練 と推論の時間を大幅に短縮し、ソーシャルメディアやインターネット全体での偽情報の拡散を防ぐために必要なスケールでのデータ処理を可能にしました。現在のGPUリソースの不足も、最適なレイテンシとAIプロジェクトの全体的な成功を達成するために、その利用を最適化することが重要であることを意味します。 ロ
DatabricksのモザイクAIを用いて複合AIシステムをより高速に構築!
多くのお客様が、一般的なモデルを使用したモノリシックなプロンプトから、製品準備完了のGenAIアプリに必要な品質を達成するための特化した複合AIシステムへと移行しています。 7月には、 エージェントフレームワークとエージェント評価を立ち上げ 、多くの企業がエージェントアプリケーションを作成するために使用しています。その一例が Retrieval Augmented Generation (RAG) です。今日、私たちはエージェントフレームワークに新機能を追加し、複雑な推論を行い、サポートチケットの開設、メールへの返信、予約の取得などのタスクを実行するエージェントの構築プロセスを簡素化することを発表します。これらの機能には以下のものが含まれます: 構造化されたエンタープライズデータと非構造化エンタープライズデータを共有可能で管理された AIツールを通じてLLMに接続します。 新しいプレイグラウンド体験を使って、エージェントを素早く実験し評価します 。 新しい ワンクリックコード生成 オプションを使用して、プレイグラ
一般主義者から専門家へ:AIシステムの進化は複合AIへ!
複合AIシステムに対する バズ は現実であり、それには十分な理由があります。複合AIシステムは、複数のAIモデル、ツール、システムの最良の部分を組み合わせて、単一のAIでは効率的に対処するのが難しい複雑な問題を解決します。 振り返る:モノリシックからマイクロサービスへ 複合AIシステムの魔法に飛び込む前に、少し戻ってアプリケーション開発がどのように進化してきたかを探ってみましょう。モノリシックなアプリケーションの日々を覚えていますか?これらは巨大な、一体型のソフトウェアシステムで、フロントエンドのインタラクション、バックエンドの処理、データベース管理を一つのコードベース内で処理 していました。彼らは強力でしたが、欠点もありました。 モノリシックアーキテクチャの課題: 遅い更新 : アプリケーションの一部を少し修正するだけで、システム全体を再デプロイする必要がありました。 スケーリングの問題 : システムの一部が重負荷になると、システム全体をスケールアップしなければなりませんでした。 単一の障害点 : 一つのコンポー
カスタムのテキストからSQL生成するアプリケーションで金融のインサイトを解き放つ!
序章 取得強化生成(RAG)は、大規模言語モデル(LLM)を使用して企業が非構造化知識ベースを活用する方法を革新し、その可能性は広範に影響を及ぼします。 インターコンチネンタルエクスチェンジ(ICE) は、世界最大の証券取引所グループであるニューヨーク証券取引所(NYSE)を含む、取引所、クリアリングハウス、データサービス、住宅ローン技術を運営するグローバルな金融組織です。 ICEは、既存のアプリケーションからのデータ移動を必要とせずに、構造化されたRAGパイプラインを持つことで、構造化データ製品の自然言語検索のシームレスなソリューションを先駆的に開発しています。このソリューションは、エンドユーザーがデータモデル、スキーマ、またはSQLクエリを理解する必要性を排除します。 ICEチームはDatabricksエンジニアと協力して、Databricks Mosaic AI製品のフルスタック( Unity Catalog , Vector Search , Foundation Model APIs , and Mod
Databricks上のMeta Llama 3.2の紹介:高速な言語モデルと強力なマルチモーダルモデル
Metaとのパートナーシップを通じて、Llama 3シリーズの最新モデルを Databricks Data Intelligence Platform でローンチすることを楽しみにしています。このLlama 3.2リリースの小型テキストモデルは、顧客が高速なリアルタイムシステムを構築することを可能にし、大型のマ ルチモーダルモデルは、Llamaモデルが視覚理解を獲得する初めてのマークです。 両方とも、Databricksの顧客が 複合AIシステム を構築するための重要なコンポーネントを提供し、これらのモデルを企業データに接続してデータインテリジェンスを可能にします。 Llamaシリーズの他のモデルと同様に、Llama 3.2モデルは今日からDatabricks Mosaic AIで利用可能で、あなたのデータで安全かつ効率的にチューニングすることができ、簡単にMosaic AI ゲートウェイ と エージェントフレームワーク にプラグインすることができます。 今日からDatabricksでLlama 3.2を使い始めま
Amazon EC2 G6インスタンス対応をDatabricksが発表
私たちは、Databricksが現在、 Amazon EC2 G6インスタンス をNVIDIA L4 Tensor Core GPUでサポートすることを発表することを嬉しく思います。これによりDatabricksデータインテリジェンスプラットフォーム上でのより効率的でスケーラブルなデータ処理、機械学習、AIワークロードを可能にする一歩を示しています。 AWS G6 GPUインスタンスの利点は何ですか? Amazon Web Services (AWS)のG6インスタンスは、低コストでエネルギー効率の高いNVIDIA L4 GPUを搭載しています。このGPUは、 NVIDIAの第4世代テンソルコアAda Lovelaceアーキテクチャ に基づいており、最も要求の厳しいAIや機械学習のワークロードをサポートします。 G6インスタンスは、NVIDIA T4...
Entra ID、Azure DevOps、Databricksを連携!CI/CDのセキュリティを強化
パーソナルアクセストークン(PAT)は、パスワードでログインせずにAzure DatabricksやAzure DevOpsなどのサービスにアクセスする便利な方法です。 現在、多くの顧客がDatabricks Gitフォルダ(旧Repos)のリモートリポジトリのGit認証情報としてAzure DevOps PATトークンを使用しています。 残念ながら、PATトークンの使用にはいくつかのデメリットがあります。 Azure DevOpsでは、PATトークンはサービスプリンシパルやマネージドアイデンティティに発行することができず、顧客はサービスアカウントやユーザーのアイデンティティに頼ることになります。 また、PATトークンの最大寿命はしばしば数日、数週間、あるいは数ヶ月であり、そのローテーション(古いトークンが使用できなくなるようにトークンを更新するプロセス)は 管理 されることがありますが、これは長寿命の漏洩したトークンが大きなリスクをもたらす可能性があることを意味します。 より安全な代替手段は、Microsoft