メインコンテンツへジャンプ
ページ 1
Engineering blog

Databricks Feature Serving(特徴量サービング)の一般提供開始のお知らせ

本日、Databricks Feature Serving(特徴量サービング)の一般提供を開始いたします。 特徴量はAIアプリケーションにおいて極めて重要な役割を果たし、通常、正確に計算し、低レイテンシーでアクセスできるようにするためにはかなりの労力を必要とします。 この複雑さによって、本番のアプリケーションの品質を向上させるための新機能の導入が難しくなります。 特徴量サービングを利用すれば、AIアプリケーションに対して、単一のREST APIを使用してリアルタイムで、事前に計算された特徴量やオンデマンドの特徴量を簡単に提供することができます! 特徴量サービングは、高速で安全、かつ簡単に使用できるように設計されており、次のような利点があります: 高速かつ低TCO - 特徴量サービングは、低TCOで高いパフォーマンスを提供するように設計されており、ミリ秒単位の待ち時間で特徴量を提供できます。 フィーチャーチェーン - 事前に計算された特徴量とオンデマンド計算のチェーンを指定することで、複雑なリアルタイム特徴量の計算
Engineering blog

リアルタイムの構造化データでRAGアプリケーションの応答品質を向上

Retrieval Augmented Generation(RAG )は、Gen AIアプリケーションのコンテキストとして関連データを提供する効率的なメカニズムです。 ほとんどのRAGアプリケーションは、通常、ドキュメントやWiki、サポートチケットなどの非構造化データから関連するコンテキストを検索するためにベクトルインデックスを使用します。 昨日、私たちはDatabricks Vector Search Public Previewを発表しました。 しかし、これらのテキストベースのコンテキストを、関連性のあるパーソナライズされた構造化データで補強することで、Gen AIの応答品質をさらに向上させることができます。 小売業のウェブサイトで、顧客が"最近の注文はどこですか?" と問い合わせる、Gen AIツールを想像してみてください。 このAIは、クエリが特定の購買に関するものであることを理解し、LLMを使用して応答を生成する前に、注文品目の最新の出荷情報を収集しなければなりません。 このようなスケーラブルなアプ
Platform blog

レイクハウスAIがリアルタイム計算でモデルの精度を向上させる方法

機械学習モデルの予測品質は、モデルの訓練と使用に使用されるデータの品質に直接反映される。 通常、特徴量、つまりモデルへの入力データは事前に計算され、保存された後、推論のために検索され、モデルに提供される。 モデルの性能は、特徴計算に使用するデータの鮮度と直接相関することが多いため、これらの特徴を事前に計算できない場合に課題が生じる。 オンデマンド・フィーチャー・コンピュテーションを発表することで、このようなフィーチャー・クラスのサービスを簡素化することができる。 レコメンデーション、セキュリティシステム、不正検知などのユースケースでは、これらのモデルのスコアリング時にオンデマンドで機能を計算する必要がある。 シナリオは以下の通り: 特徴量の入力データがモデル提供時にしか得られない場合。 例えば、 distance_from_restaurantは 、モバイル機器によって決定されたユーザーの最後の既知の位置を必要とする。 ある機能の価値が、それが使われる文脈によって変化する状況。 デバイスの種類がデスク トップと
Platform blog

AIデータの簡素化

翻訳:Junichi Maruyama. - Original Blog Link どのデータサイエンス組織と話しても、高品質なAIモデルを構築するための最大の課題はデータへのアクセスと管理であると、ほぼ全員が口を揃えて言うだろう。長年にわたり、実務家は実験と開発を加速させるために様々なテクノロジーと抽象化を利用してきた。ここ数年、フィーチャーストアは、機械学習のためにデータを整理し準備する方法として、実務家の間でますます普及している。2022年初頭、Databricksはフィーチャーストアの一般提供を開始しました。この夏、Databricks Unity Catalogのネイティブ機能としてフィーチャーエンジニアリングと管理を導入できることを嬉しく思います。これは、AIデータをよりシンプルに管理する方法の大きな進化を意味します。この進化は、フィーチャー管理とクラス最高のデータカタログを一体化させ、フィーチャーを作成し、それらを使用してモデルをトレーニングし、サービスを提供するプロセスを簡素化し、安全にします。
Engineering blog

Databricks の MLflow モデルレジストリと CI/CD 機能で MLOps を簡素化

MLflow は、実験のメトリクスやパラメータ、アーティファクトの追跡、モデルをバッチまたはリアルタイムでサービングシステムに展開する機能を提供し、組織における機械学習(ML)ライフサイクルの管理を支援します。 MLflow モデルレジストリ は、実験段階からデプロイメントへのハブとして、モデル展開のライフサイクルを管理する中央リポジトリを提供します。 MLOps 、機械学習ライフサイクル管理において、継続的インテグレーションと継続的デプロイメント(CI/CD)のプロセスは極めて重要です。このブログでは、全ての Databricks ユーザーが利用できるタグやコメント、Webhook 通知機能など、CI/CD プロセスを円滑にする Databricks の MLflow モデルレジストリの新機能をご紹介します。 AWS 、 Azure との連携についてはそれぞれのページをご覧ください。 なお、このブログでは、Data+AI サミット 2020 で一般提供を発表した...
Company blog

MLflow モデルレジストリをエンタープライズ機能に拡張

Databricks の MLflow モデルレジストリ にエンタープライズレベルの新機能が追加されました。 Databricks の統合分析プラットフォーム をご利用いただいている場合、MLflow モデルレジストリはデフォルトで有効になります。 このブログでは、モデル管理を一元化するハブとしての MLflow モデルレジストリのメリットをご紹介し、組織内のデータチームによるモデル共有やアクセス制御、モデルレジストリ API を活用した統合や検証について解説します。 MLflow によるハブの一元化が、モデルライフサイクル管理のコラボレーションを可能に MLflow には、実験の一部としての メトリクス 、 パラメータ 、 アーティファクトをトラッキングする機能...