エンジニアリングのブログ

ページ 4

BigQuery が Delta Lake をファーストパーティでサポートします

June 5, 2024 ジョナサン・ブリトー、バヴィン・クカディア、スーザン・ピアースによる投稿 in エンジニアリングのブログ

BigQuery は Delta Lake のファーストパーティサポートを備え、Delta Lake のコネクタエコシステムを拡大し、Databricks との統合をシンプルにします

Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に

June 3, 2024 ジョナサン・ブリトー、フレッド・リュー、スーザン・ピアースによる投稿 in エンジニアリングのブログ

現在一般提供されている Delta Lake UniForm により、顧客は Iceberg エコシステム内のツールに接続する際に、Delta Lake の業界をリードする価格性能のメリットを享受できるようになります。

Delta LakeとApache Sparkにオープンバリアントデータ型を導入

June 2, 2024 ケント・マーテン、ジーン・パン、李晨浩、ハン・シャオによる投稿 in エンジニアリングのブログ

半構造化データ用のバリアントと呼ばれる新しいデータ型を発表できることを嬉しく思います。バリアント（Variant）は、これらのデータを JSON 文字列として保存する場合と比べて、パフォーマンスが桁違いに向上すると同時に、高度にネストされ進化するスキーマをサポートするための柔軟性も維持します。半構造化データの取り扱いは、長い間レイクハウスの基盤的な機能の一つです。エンドポイント検出と対応（EDR）、広告クリック分析、IoTテレメトリーなどは、半構造化データに依存する人気のユースケースの一部です。私たちがより多くの顧客を専有のデータウェアハウスから移行させる中で、彼らが専有のデータウェアハウスで提供されるバリアントデータ型に依存していることを聞き、ロックインを避けるためにオープンソース標準が欲しいという声がありました。オープンバリアントタイプは、Apache SparkオープンソースコミュニティとLinux Foundation Delta Lakeコミュニティの両方とのコラボレーションの結果です: バリア

DatabricksでのMosaic AI Vector Searchの一般提供開始を発表

May 21, 2024 セルゲイ・ツァレフ、オリバー・チウによる投稿 in データサイエンス・ML

検索拡張生成（RAG）用のツールスイートに関する発表に続き、本日、 Databricks での Mosaic AI Vector Search （ベクトル検索）の一般提供を発表できることを嬉しく思います。 Mosaic AI Vector Search とは何か? Vector Search を使用すると、開発者は PDF、Office ドキュメント、Wiki などの非構造化ドキュメントの類似性検索を通じて、検索拡張生成（RAG）...

調査：Databricks Assistant による生産性の向上

May 14, 2024 サマンサ・バンチク、ジャッキー・ザン、リチャード・トムリンソンによる投稿 in 生成 AI

データサイエンスとエンジニアリングの急速に進歩する分野では、生産性を向上させるために人工知能 (AI) の統合が不可欠になっています。数多くのツールが登場し、データ実務者の生活を一変させ、複雑なタスクを容易にし、イノベーションを促進してきました。 2023 年 7 月に Databricks Assistant をパブリックプレビューでリリースしたとき、私たちはデータサイエンティスト、アナリスト、エンジニア間の効率を合理化することのみを目的として設計しました。この目標をどの程度達成しているかをよりよく理解するために、経験の異なる複数の組織のトップユーザーを対象に調査を行うことにしました。調査の目的 Databricks Assistant がデータプロフェッショナルに与える影響をより深く理解するために、幅広いユーザーエクスペリエンスを捉えられるようにこの調査を綿密に設計しました。このアンケートを実施した目的は、アシスタントがユーザーの日常生活に与える影響をよりよく理解するだけでなく、アシスタント

Databricks モデルサービングの新たなアップデートで生成 AI アプリ開発を加速

May 9, 2024 アフマド・ビラル、Kasey Uhlenhuth による投稿 in 生成 AI

昨年、 Databricksモデルサービングにおける基盤モデルのサポートを開始し、企業が統合データおよび AI プラットフォーム上で安全でカスタマイズされた生成 AI アプリを構築できるようにしました。それ以来、何千もの組織がモデルサービングを使用して、独自のデータセットに合わせてカスタマイズされた生成 AI アプリを展開してきました。本日、生成 AI アプリの実験、カスタマイズ、展開を容易にする新しいアップデートを発表できることを嬉しく思います。これらの更新には、新しい大規模言語モデル (LLM) へのアクセス、より簡単な検出、よりシンプルなカスタマイズオプション、および改善されたモニタリングが含まれます。これらの改善により、生成 AI...

本番運用 - Databricksを使用した高品質の RAG アプリケーション

May 8, 2024 アキル・グプタ、オリバー・チウによる投稿 in データサイエンス・ML

12 月に、Databricks は Retrieval Augmented Generation (RAG) を使用して AI アプリケーションを本番運用するための新しいツールを発表しました。それ以来、 Databricks Data Intelligence Platform 上で何千もの顧客によって構築される RAG アプリケーションが爆発的に増加しています。本日、 DatabricksVector Searchの一般提供やモデルサービングのメジャーアップデートなど、...

データエンジニアのための Databricks Assistant のヒントとコツ

May 1, 2024 ジャッキー・ザン、ラフィー・カーランシック、リチャード・トムリンソンによる投稿 in 製品

生成AI革命はチームの働き方を変えつつあり、Databricks Assistantはこれらの進歩を最大限に活用しています。会話型インターフェイスを介してデータをクエリできるため、 Databricksワークスペース内での生産性が向上します。アシスタントは Databricks用のデータインテリジェンスエンジンであるDatabricksIQ を搭載しており、データのセキュリティを確保し、応答が正確で、企業の詳細に合わせて調整されていることを確認します。 Databricks Assistantを使用すると、タスクを自然言語で記述して、開発者のエクスペリエンスを中断することなく、複雑なコードを生成、最適化、またはデバッグできます。この投稿では、ブログ「 Databricks Assistantを最大限に活用するための5つのヒント」を拡張し、アシスタントが退屈な作業の排除、生産性と没入感の向上、価値実現までの時間の短縮によってデータエンジニアの生活をどのように改善できるかに焦点を当てます。さまざまなデータ

DatabricksIQ LLMの品質向上 - AIによるテーブル説明文の生成

April 29, 2024 スダルシャン・セシャドリ、Matthew Hayes、Ritendra Datta、リチャード・トムリンソンによる投稿 in エンジニアリングのブログ

最近、 Unity CatalogのAI生成コメントをサポートする基礎となるアルゴリズムに大幅な改善を加えました。その結果を皆さんにお伝えできることを嬉しく思います。Databricks のデータインテリジェンスエンジンである DatabricksIQ を通じて、AIによって生成されたコメントは、顧客のUnity Catalogテーブルの新しいドキュメントの大部分をすでに生成しており、最近の機能強化は、この非常に人気のある機能をさらに強化します。このブログでは、トレーニングデータの合成に更新されたオープンソースLLMを使用する方法、トレーニングデータのクリーニングにヒューリスティックフィルターを使用する方法、ファインチューニング用に更新されたベースモデルを使用する方法、および自動ベンチマークで利用される拡張評価セットを使用する方法について説明します。最小限の労力で、これらの変更により、オフラインベンチマークで以前に導入されたモデルと比較して、優先率が 2倍に増加しました。さらに広い意味では、この取り

Databricks上のMeta Llama 3でエンタープライズ生成AIアプリを構築

April 18, 2024 アフマド・ビラル、ハゲイ・ルペスコによる投稿 in データサイエンス・ML

私たちはMeta社と共同で、最新の大規模言語モデル Meta Llama 3 を Databricks上でリリースできることを嬉しく思います。Databricks上のLlama 3により、あらゆる規模の企業が、完全に管理されたAPIを介してこの新しいモデルを導入することができます。Meta Llama 3は、オープン言語モデルの新しいスタンダードとなり、最先端のクローズドモデルに匹敵する機能を、コミュニティと独自のLLMを開発する企業の両方に提供します。Databricksでは、オープンな言語モデルを推進するというMetaのコミットメントに共感しており、この新しいモデルを初日から企業のお客様にご利用いただけることに興奮しています。 Meta Llama 3は、今後数日のうちにリージョンごとに展開される予定で、Databricksモデルサービング上の統一的なAPIを通じてアクセスすることができます。つまり、組織固有のデータを安全に活用しながら、ユースケースに最適なモデルを使用して、高品質で本番規模の生成AIアプリ