エンジニアリングのブログ

ページ 3

Delta Live Tablesを使用してフルテーブルスナップショットからの変更データキャプチャ（CDC）を実行する方法

August 26, 2024 Mojgan Mazouchi、ガネーシュ・チャンドによる投稿 in エンジニアリングのブログ

すべてのコードはこのGitHubリポジトリで利用可能です。このブログを読む前に、 Delta Live Tablesの始め方と Databricks Delta Live Tablesで変更データキャプチャを簡素化するを読むことをお勧めします。これらの記事では、Delta Live Tables（DLT）の宣言的なETL定義とステートメントを使用して、スケーラブルで信頼性の高いパイプラインを作成する方法について説明しています。イントロダクション Oracle、MySQL、またはデータウェアハウスなどの外部リレーショナルデータベースから Databricksデータインテリジェンスプラットフォームへのデータの同期は、一般的なユースケースです。Databricksは、LakeFlow Connectのシンプルで効率的な取り込みコネクタから、変更データキャプチャ（CDC）入力データセットを受け入れるDelta Live Tables（DLT）の柔軟性を持つAPPLY CHANGES...

ロールスロイスの画像生成に Databricks Mosaic AI のパワーを活用する

August 7, 2024 ジャック・ケレハー、マージョリー・アドリアンセンズ、プネート・ジャインによる投稿 in 生成 AI

ロールス・ロイスは、様々なAIプロジェクトにおいて Databricksデータインテリジェンスプラットフォームの変革的な力を目の当たりにしてきました。その一例として、ロールス・ロイスとDatabricksの協力プロジェクトがあります。このプロジェクトは条件付き敵対的生成ネットワーク（cGAN）の学習プロセスの最適化に焦点を当てており、 Databricks Mosaic AIツールを使用することの多くの利点を実証しています。このcGAN学習最適化の共同プロジェクトでは、チームは数値、テキスト、画像データの使用を検討しました。主な目標は、ロールス・ロイスの設計空間探索能力を向上させ、パラメトリックモデルの限界を克服することでした。これは、従来の形状モデリングとシミュレーションプロセスを必要とせずに、特定の設計条件を満たす革新的な設計コンセプトの識別と評価を推進するために、過去のシミュレーションデータを再利用できるようにすることで達成されました。ビデオを見る：ロールスロイスがクラウドベースの生成AI を使用

「Photon」で特徴量エンジニアリングを加速せよ！

August 2, 2024 チェン・イン、Xiao Zhu による投稿 in 生成 AI

高品質な機械学習モデルの訓練には、慎重なデータと特徴量の準備が必要です。Databricksにテーブルとして保存された生データをフルに活用するためには、ETLパイプラインの実行や特徴量エンジニアリングが必要となり、生データを有用な特徴量テーブルに変換することが求められます。テーブルが大きい場合、このステップは非常に時間がかかることがあります。今回、Databricks Machine Learning RuntimeでPhoton Engineを有効にできることを発表できることを嬉しく思います。これにより、Sparkジョブや特徴量エンジニアリングのワークロードを2倍以上高速化することが可能になります。「Photonを有効にし、新しいPITジョインを使用することで、私たちのフィーチャーストアを使用してトレーニングデータセットを生成するための時間が20倍以上短縮されました。」 - Sem Sinchenko, Advanced Analytics Expert Data Engineer, Raiffeisen

LakeFlow Connectで実現：SQL Server、Salesforce、Workdayからのデータ取り込み

July 31, 2024 エリーゼ・ジョリス、ピーター・ポゴルスキー、Ori Zohar による投稿 in プラットフォーム

SQL Server、Salesforce、Workday用の LakeFlow Connect のパブリックプレビューを発表することを楽しみにしています。これらの取り込みコネクタは、データベースやエンタープライズアプリからのシンプルで効率的な取り込みを可能にします。これは、インクリメンタルなデータ処理とスマートな最適化によって支えられています。LakeFlow Connectはデータインテリジェンスプラットフォームのネイティブ機能であるため、サーバーレスコンピューティングとUnity Catalogガバナンスの両方を提供します。つまり、組織がデータの移動に費やす時間を減らし、それから価値を得るための時間を増やすことができるということを意味します。より広範に言えば、これはData + AI Summitで発表した取り込み、変換、オーケストレーションの統一ソリューションである LakeFlow を用いて、Databricks上のデータエンジニアリングの未来を実現するための重要なステップです。LakeFlow Co

主キーと外部キー制約が一般提供開始：クエリの高速化を実現

July 24, 2024 Xinyi Yu、ジャスティン・タルボット、Serge Rielau による投稿 in エンジニアリングのブログ

Databricksは、Databricks Runtime 15.2およびDatabricks SQL 2024.30から始まる主キー（PK）および外部キー（FK）制約の一般提供（GA）を発表することを大変嬉しく思います。このリリースは、毎週数百のアクティブな顧客によって受け入れられた非常に成功したパブリックプレビューに続き、レイクハウス内のデータ整合性とリレーショナルデータ管理の強化における重要なマイルストーンをさらに表しています。さらに、Databricksはこれらの制約を使用してクエリを最適化し、クエリプランから不要な操作を排除することができ、パフォーマンスを大幅に向上させることができます。主キーと外部キー制約主キー（PK）と外部キー（FK）は、リレーショナルデータベースの基本的な構成要素であり、データモデリングの基礎を形成します。これらは、スキーマ内のデータ関係についての情報をユーザー、ツール、アプリケーションに提供し、制約を活用した最適化を可能にし、クエリの速度を向上させます。主キーと外部キーは

生成AIモデルのファインチューニングが簡単に！Mosaic AI Model Trainingが登場

July 22, 2024 ダニエル・キング、ナンシー・ハン、Kasey Uhlenhuth による投稿 in 生成 AI

本日、Mosaic AIモデルトレーニングによる生成AIモデルの微調整サポートがパブリックプレビューで利用可能になったことをお知らせできることを嬉しく思います。Databricksでは、汎用LLM（大規模言語モデル）の知能と企業データの知識を結びつけること、すなわち「データインテリジェンス」が高品質な生成AI システムを構築する鍵であると考えています。ファインチューニングにより、モデルは特定のタスクやビジネスコンテキスト、専門知識に特化でき、RAG（再利用可能な生成）と組み合わせることで、より正確なアプリケーションが可能になります。これにより、企業データを取り入れて生成AIを独自のニーズに適応させるための重要な柱となる「データインテリジェンスプラットフォーム戦略」が形成されます。モデルトレーニング私たちの顧客は昨年、20万以上のカスタムAIモデルをトレーニングしており、その経験を基にMosaic AI Model Trainingという完全マネージドサービスを開発しました。Llama 3、Mistral

Mosaic AI Agent Framework および Agent Evaluation の発表

July 2, 2024 エリック・ピーター、アキル・グプタ、マニ・パルケ、アルキス・ポリゾティス、チェネン・リャン、マヘーシュワラン・ヴェンカタチャラム、マイケル・カービン、ニール・タービットによる投稿 in 生成 AI

Databricks は、Data + AI Summit 2024 で、生成 AI クックブックとともに、Mosaic AI Agent Framework および Agent Evaluation のパブリックプレビューを発表...

ノートブックでシンプルに！DLTパイプライン開発

June 25, 2024 ゾーイ・デュラン、ドミニク・クレイマー、プラディープ・ゴパナパリ・ヴェンカタ、ディラン・スティール、ジュリア・マーティンによる投稿 in エンジニアリングのブログ

史上最大規模のData + AI Summitが開催されてからわずか数週間が経ちました。このサミットでは、データエンジニアリングのための統合されたインテリジェントなソリューションである Databricks LakeFlow を紹介しました。 Databricksのデータエンジニアリングのこの戦略的方向性に非常に興奮していますが、現在もユーザー向けの製品エクスペリエンスへの投資も続けています。 DLT 開発エクスペリエンスの向上は、DLT を使用してデータパイプラインを構築する開発者の効率と満足度に直接影響するため、中心的な焦点となっています。ノートブックを使用した DLT 開発エクスペリエンスにいくつかの機能強化が加えられたことをお知らせします。これらの新機能は、シームレスで直感的な DLT 開発インターフェースを提供し、パイプラインを迅速かつ効率的に構築およびデバッグするのに役立ちます。 Delta Live Tables (DLT) は、信頼性の高いデータパイプラインの構築、テスト、保守を簡素化および高

Databricks LakeFlowの登場: データエンジニアリングのための統一されたインテリジェントソリューション

June 13, 2024 Michael Armbrust、ビラル・アスラムによる投稿 in プラットフォーム

Translation Review by saki.kitaoka 本日、私たちはDatabricks LakeFlowを発表します。これは、プロダクションデータパイプラインを構築および運用するために必要なすべてを含む新しいソリューションです。MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Microsoft Dynamics、NetSuite、Workday、ServiceNow、Google Analyticsなどの企業アプリケーション向けの新しいネイティブで高スケーラビリティのコネクタが含まれています。ユーザーは標準SQLおよびPythonを使用して、バッチおよびストリーミングでデータを変換できます。さらに、Apache Spark向けのリアルタイムモードを発表し、従来のマイクロバッチよりもはるかに高速なレイテンシでストリーム処理が可能になります。最後に、CI/CDを使用してワークフローをオーケストレーションおよびモニタリングし、本番環境にデプ

Mosaic AI：本番運用のための複合AIシステムの構築とデプロイ

June 12, 2024 Patrick Wendell（パトリック・ウェンデル）、ナヴィーン・ラオによる投稿 in 生成 AI

Translation Review by saki.kitaoka 過去1年間で、一般知識タスクにおける優れた推論能力を示す商用およびオープンソースの基礎モデルの急増を目の当たりにしました。一般モデルは重要な構成要素ですが、実際のAIアプリケーションは、調整されたモデル、検索、ツールの使用、および推論エージェントなど、複数のコンポーネントを活用する複合AIシステムが採用されることが多くなっています。AIシステムは基礎モデルを強化し、品質を大幅に向上させることで、顧客がこれらの生成AIアプリケーションを自信を持って運用に導入できるようにします。本日、Data and AI Summitで、Databricks Mosaic AIが本格的なAIシステムを構築するための最良のプラットフォームとなる新機能を発表しました。これらの機能は、数千の企業と協力してAI駆動アプリケーションを運用に投入してきた経験に基づいています。本日の発表には、基礎モデルのファインチューニングのサポート、AIツールのエンタープライズカタ