メインコンテンツへジャンプ
ページ 1
>

Databricksへの移行のナビゲーション:アーキテクチャと戦略的アプローチ

私たちの 前回のブログ では、複雑なデータウェアハウスの移行をDatabricksに実行するための、プロフェッショナルサービスチームが推奨する方法論を探求しました。このようなプロジェクト中に生じる複雑さや課題を強調し、移行戦略と設計フェーズでの重要な決定の重要性を強調しました。これらの選択は、移行の実行と目標データプラットフォームのアーキテクチャの両方に大きな影響を与えます。この投稿では、これらの決定に深く踏み込み、移行プロセス全体で情報に基づいた効果的な選択を行うための主要なデータポイントを概説します。 移行戦略:まずETLか、それともまずBIか? あなたが移行戦略を確立し、高レベルの目標データアーキテクチャを設計したら、次に決定することは、どのワークロードを最初に移行するかです。二つの主要なアプローチがあります。 ETLファーストの移行(バックからフロントへ) BIファーストの移行(フロントからバックへ) ETLファーストの移行:基盤の構築 ETLファースト(バックからフロントへ)で移行する方法は、包括的なレ

Apache Spark™ Structured Streamingでの変更データキャプチャのシンプル化

このブログでは、Apache Spark™ Structured StreamingのState Reader APIの新しい変更フィードとスナップショット機能について説明します。State Reader APIは、ユーザーがStructured Streamingの内部状態データにアクセスし、分析することを可能にします。読者は、新機能を活用してデバッグ、トラブルシューティング、状態変更の効率的な分析を学び、ストリーミングワークロードをスケールで容易に管理する方法を学びます。 状態変化を簡単に処理する方法 データエンジニアリングの絶えず進化する風景の中で、Apache Spark Structured Streamingは、大規模なリアルタイムデータの処理のための基盤となっています。しかし、 ストリーミングワークロード が複雑さを増すにつれて、これらのシステムを開発、デバッグ、トラブルシューティングする課題も増大します。2024年3月、Databricksは State Reader API を導入することで、こ

Databricksにコレーション機能が登場!

SELECT 'Hello world!' COLLATE UNICODE, 'Zdravo svete!' COLLATE SR, 'Γειά σου, Κόσμε!' COLLATE EL, 'Здравствуй, мир!' COLLATE RU, '你好, 世界!' COLLATE ZH, 'Bonjour...

サーバーレスおよびモデルサービングワークロード向けエグレス制御機能が利用可能に

DatabricksのサーバーレスおよびMosaic AI Model Servingワークロード向けの エグレス制御 が、AWSおよびAzureでパブリックプレビューとして提供開始されたことをお知らせします! これにより、複数の製品やワークスペースにわたるサーバーレスワークロードからのアウトバウンドアクセスを一元的に制御するポリシーを設定できるようになりました。 サーバーレスイグレス制御を使用することで、Databricksのサーバーレス機能の柔軟性とコスト効率を活かしながら、データの不正転送先への流出から保護することができます。 今回のリリースにより、Model Serving、ノートブック、ワークフロー、Delta Live Tables(DLT)パイプライン、Lakehouseモニタリング、Databricks SQL、Databricks Appsでサーバーレスエグレス制御が利用可能になります。 Databricksサーバーレスエグレス制御のメリット データセキュリティを強化する サーバーレスのエグレス

MLOpsベストプラクティス - MLOpsジム: Crawl

January 6, 2025 Sepideh Ebrahimi による投稿 in
はじめに MLOpsは一度きりのプロジェクトではなく、継続的な旅です。それは、単なるツールや特定の技術スタックにとどまらず、実践と組織の行動に関わるものです。あなたのML(機械学習)チームがどのように協力し、AIシステムを構築するかは、結果の質に大きな影響を与えます。MLOpsのすべての詳細が重要です—コードの共有方法やインフラの設定、結果の説明方法に至るまで。これらの要素が、ビジネスにおけるAIシステムの効果に対する認識と、その予測を信頼する意欲を形作ります。 『The Big Book of MLOps 』は、DatabricksにおけるMLOpsの高レベルな概念とアーキテクチャをカバーしています。これらの概念を実装するための実践的な詳細を提供するために、 MLOps Gymシリーズ を紹介しました。このシリーズでは、DatabricksでのMLOps実装に欠かせない重要なトピックを取り上げ、各トピックに対するベストプラクティスと洞察を提供します。シリーズは「Crawl(這う)」、「Walk(歩く)」、「Ru

VulnWatch:AIによる脆弱性の優先順位付け

January 3, 2025 Anirudh Kondaveeti による投稿 in
多くの組織は、自社で使用するサードパーティライブラリに影響を与える新たな脆弱性の優先順位を正しく付けることに課題を抱えています。日々発表される脆弱性の数が膨大で、手動で監視するのは現実的ではなく、リソースを大量に消費します。 Databricksでは、企業の目標の一つとして、データインテリジェンスプラットフォームのセキュリティを強化することがあります。弊社のエンジニアリングチームは、脆弱性が公開されると同時に、その深刻度、潜在的影響、およびDatabricksのインフラに対する関連性に基づいて、脆弱性を積極的に検出、分類、優先順位付けするAIベースのシステムを設計しました。このアプローチにより、重大な脆弱性が見逃されるリスクを効果的に軽減できます。弊社のシステムは、業務にとって重要な脆弱性を約85%の精度で識別できます。優先順位付けアルゴリズムを活用することで、セキュリティチームは手動作業を95%以上削減し、数百件の問題を確認するのではなく、即時対応が必要な脆弱性の5%に集中できるようになりました。 次のステップ

HPがDelta Sharingを活用して、3Dプリントのサプライチェーンを最適化!

ハビエル・ラガレスはHPの主任データエンジニアで、3Dプリントビジネスのデータ駆動型ソリューションの開発をリードしています。データエンジニアリングとアーキテクチャの強固なバックグラウンドを持つハビエルは、データを活用してビジネス成果を向上させ、顧客体験を改善することに情熱を注いでいます。 すべての業界でデータによる意思決定がますます重視される中、HPの3Dプリント部門は変革的な取り組みを先導しています:自社の製造プロセスの一部として3Dプリンターを使用する顧客に対して、ほぼリアルタイムの機器テレメトリーデータを共有することです。このデータ共有機能により、HPの顧客はリースした機器のパフォーマンスと使用状況を監視し、データの洞察に基づいてビジネスやメンテナンスの行動を予防的に取ることができます。 Delta Sharing やDatabricksの他の機能、例えば Unity Catalog 、 Mosaic AI そして AI/BIダッシュボード を使用して、HPは機器のパフォーマンス、材料の使用状況、メンテナン

オープンAPIを用いてUnity Catalogのアセットに外部から安全にアクセスする

Unity CatalogのオープンAPI向けの資格情報の発行(クレデンシャルベンディング)のパブリックプレビューを発表できることを嬉しく思います。これにより、外部クライアントがオープンソースのUnity REST APIを通じてUnity Catalogの外部およびマネージドテーブルに安全にアクセスし、Iceberg REST Catalog APIを通じてUniForm対応テーブルにアクセスできるようになります。この機能は、Apache Spark™、DuckDB、Daft、PuppyGraph、StarRocks、Spice AI、Microsoft Fabric、Salesforce Data Cloud、Iceberg RESTカタログエンジンのようなTrinoやDremioなど、幅広いエンジンやツールとのシームレスな相互運用性を実現します。 データとAI資産のための業界唯一の統一されたオープンガバナンスソリューションとして、 Unity Catalog は、現代のデータとAIスタック全体での相互運用性

AIをよりアクセシブルに:Databricks上のMeta Llama 3.3で最大80%のコスト削減!

企業が高品質なAIアプリを提供するエージェントシステムを構築するにつれて、私たちはお客様に最高のコスト効率を提供するための最適化を続けています。Meta Llama 3.3モデルが Databricks Data Intelligence Platform で利用可能になったことを発表することを嬉しく思います。また、Mosaic AIの Model Serving の価格と効率性に大幅な更新が加えられました。これらの更新により、推論コストが最大80%削減され、AIエージェントを構築したり、バッチLLM処理を行っている企業にとって、以前よりも大幅にコスト効率が向上します。 コスト削減80%: 新しいLlama 3.3モデルと価格の引き下げにより、大幅なコスト削減を実現します。 推論速度の向上: レスポンスが40%速くなり、バッチ処理時間が短縮されることで、より良い顧客体験と迅速な洞察を実現します。 新しいMeta Llama 3.3モデルへのアクセス: Metaの最新技術を活用して、品質とパフォーマンスを向上させま

Unity Catalogに新機能!Hive MetastoreとAWS Glue Federationのパブリックプレビュー開始!

Hive Metastore(HMS)とAWS Glue Federationのパブリックプレビュー開始をお知らせします! この新機能により、Unity CatalogはDatabricks内外に存在するHive MetastoreやAWS Glueに保存されたテーブルにシームレスにアクセスし、統一的なガバナンスを提供できるようになります。これは、Unity Catalogを通じてデータベース、データウェアハウス、カタログといった外部データソースを統一ガバナンスフレームワークの下にまとめる Lakehouse Federation ビジョンの重要な一歩となります。 形式や場所を問わず、すべてのデータを単一のプラットフォームから簡単に発見、ガバナンス、クエリ可能になり、組織全体のオープンなアクセスとコラボレーションを促進します。また、データインテリジェンスをすべてのデータソースに拡張することが可能になります。 このブログでは、HMSとAWS Glue Federationのメリット、仕組み、導入方法について解説しま