「Photon」で特徴量エンジニアリングを加速せよ!
高品質な機械学習モデルの訓練には、慎重なデータと特徴量の準備が必要です。Databricksにテーブルとして保存された生データをフルに活用するためには、ETLパイプラインの実行や特徴量エンジニアリングが必要となり、生データを有用な特徴量テーブルに変換することが求められます。テーブルが大きい場合、このステップは非常に時間がかかることがあります。今回、Databricks Machine Learning RuntimeでPhoton Engineを有効にできることを発表できることを嬉しく思います。 これにより、Sparkジョブや特徴量エンジニアリングのワークロードを2倍以上高速化することが可能になります。 「Photonを有効にし、新しいPITジョインを使用することで、私たちのフィーチャーストアを使用してトレーニングデータセットを生成するための時間が20倍以上短縮されました。」 - Sem Sinchenko, Advanced Analytics Expert Data Engineer, Raiffeisen
Lakehouse Monitoring 一般提供開始:インテリジェントなデータ品質のプロファイリング、診断、実施
Data and AI Summitで、我々は Databricks Lakehouse Monitoring の一般提供開始を発表しました。データとAIの監視に対する統一的なアプローチにより、 Databricks Data Intelligence Platform 内で直接プロファイルを作成し、診断し、品質を強制することが容易になります。これは直接 Unity Catalog 上に構築されており、Lakehouse Monitoring ( AWS | Azure )は追加のツールや複雑さを必要としません。ダウンストリームプロセスが影響を受ける前に品質問題を発見することで、組織はデータへのアクセスを民主化し、データへの信頼を回復することができます。 なぜデータとモデルの品質が重要なのか...
Lakehouse Federationの一般提供を開始
本日、Unity CatalogのLakehouse FederationがAWS、Azure、GCPで一般提供 (GA) されたことをお知らせします。Lakehouse Federationを使用すると、すべてのデータを一か所で発見、クエリ、管理することができます。このGAリリースにより、連携ワークロードに対する安定性、セキュリティ、エンタープライズ対応が強化されます。 このブログ投稿では、Lakehouse FederationのGA機能について説明し、世界をリードする企業でのアジャイルな分析をどのように支えているかを探求し、次に何が来るのかを議論します。 Lakehouse Federation入門 世界中の組織は、規模や業界に関係なく、データとAIを活用して革新を推進しています。しかし、歴史的、組織的、技術的な理由から、データはしばしば複数の運用および分析システムに分散して残っています。この断片化はいくつかの課題を引き起こします: すべてのデータを発見し、アクセスするのが難しい エンジニアリングのボトルネ
LakeFlow Connectで実現:SQL Server、Salesforce、Workdayからのデータ取り込み
SQL Server、Salesforce、Workday用の LakeFlow Connect のパブリックプレビューを発表することを楽しみにしています。これ らの取り込みコネクタは、データベースやエンタープライズアプリからのシンプルで効率的な取り込みを可能にします。これは、インクリメンタルなデータ処理とスマートな最適化によって支えられています。LakeFlow Connectはデータインテリジェンスプラットフォームのネイティブ機能であるため、サーバーレスコンピューティングとUnity Catalogガバナンスの両方を提供します。つまり、組織がデータの移動に費やす時間を減らし、それから価値を得るための時間を増やすことができるということを意味します。 より広範に言えば、これはData + AI Summitで発表した取り込み、変換、オーケストレーションの統一ソリューションである LakeFlow を用いて、Databricks上のデータエンジニアリングの未来を実現するための重要なステップです。LakeFlow Co
データ共有の民主化!プラットフォームに縛られないアプローチとは?
すべての業界の企業が、協力を促進し、イノベーションを加速するために、互いにデータを共有したいと考えています。しかし、これらの組織はしばしば異なるデータやクラウドプラットフォームを使用しており、これが摩擦を生じさせたり、協力を阻害したりします。DatabricksとLinux Foundationは、Delta Sharingを開発し、プラットフォーム、クラウド、地域間でのデータ共有に対する初のオープンソースアプローチで、データ交換の民主化における重要なマイルストーンを達成しました。 Delta Sharing を使用すると、顧客は自身のプラットフォームと顧客ベース内での協力に限定されることなく、すべての顧客、パートナー、その他の協力者とデータを共有することができます。 2022年にDelta Sharingの一般提供を発表して以来 、多くの企業がそれを採用し、クラウドやプラットフォームに関係なく、顧客やパートナーとの連携を最大化しています。Databricksの顧客は、Databricks-to-Databric
Lakehouse FederationとLakeFlow ConnectのためのSalesforceコネクタの紹介
お客様がSalesforce CRMとData Cloudのデータからシームレスに洞察を得ることができる新たな統合を発表することを楽しみにしています。 昨年、私たちは Salesforceとの戦略的パートナーシップを発表 しました 。それ以来、私たちはさまざまな面での統合を構築するために努力を続けてきました。2024年3月には、Salesforceは、 Salesforce Bring Your Own Model (BYOM) with Databricks (Databricks Mosaic Model Servingを基盤とする)と Databricks SQLウェアハウスとのZero Copy Data...
エンジニアリング企業向けのOKR重視のデリバリーモデル
序章 新しい技術を採用する組織や近代化の旅をしている組織は、通常、今後のツール、その機能、理想的な環境下での潜在的なパフォーマンス/コスト改善に焦点を当てています。一つ見落とされがちな側面は、組織がどのように効果的かつ効率的にこれらの技術を取り入れるかということです。実際のところ、技術の採用はビジネスの優先事項、他のシステムとの統合、技術的な負債に影響を受けます。これらの抵抗は、全体的なプロジェクトの実行と効率を潜在的に不安定にする可能性があります。 このテクノロジーの採用中における典型的なプロフェッショナルサービス組織の役割は、技術的な相談と変更管理を通じて抵抗を最小限に抑え ることです。 Databricksプロフェッショナルサービス では、技術から約束されたビジネス価値を実現することに焦点を当て、顧客と責任を共有することが重要だと考えています。 そのことを念頭に置いて、私たちはエンジニアリングのDNAから学び、お客様の目標と主要な結果(OKR)に基づいた共同努力に焦点を当てた新しいエンゲージメントモデルの試験
キャピタルマーケットのための生成AI戦略
財務評価と比較分析 ヘッジファンド、マーケットメーカー、年金基金などのキャピタルマーケットに特化した金融機関は、これまでも最新の分析手法や新しいオルタナティブデータの導入に積極的でした。この競争の激しい業界では、成功者はより広範なデータを迅速に要約し、それに基づいて行動することで「アルファ」を獲得しています。 生成AI(Gen AI)の成熟は、金融サービス業界全体で注目されており、買い手側と売り手側の間に長く存在していたデータの格差は急速に縮まっています。リーダーたち は、大規模な言語モデル(LLM)やAI技術が、金融アナリストチームを強化するために大きな価値をもたらすことを認識しています。多くの企業が、データサイエンス部門から生まれた概念実証や限定的なパイロットプロジェクトに、すでに意欲的に投資を行っています。今日、「アルファ」を獲得するための戦いは、早期に正しい情報を手に入れるだけでなく、技術的なパイロットをいち早くビジネスユーザーが信頼して活用できる企業向けアプリケーションに変換する能力にも依存しています。
Databricksデータインテリジェンスプラットフォームで実現する責任あるAI
人工知能(AI)の変革的な可能性は明白です。生産性の向上、コスト削減、そしてあらゆる業界での意思決定の改善に至るまで、AIはバリューチェーンを革新しています。特に2022年後半からの生成AIの登場、特にChatGPTのリリース以来、この技術に対する市場の関心と熱意はさらに高まっています。 McKinsey and Co. によると、生成AIの経済的潜在能力、つまりAIによって可能になるユースケースや労働者の生産性は、世界経済に17兆ドルから26兆ドルの価値をもたらす可能性があるとされています。 この結果として、ますます多くの企業が、競争優位性を築くためにAIをビジネス戦略の中心に据えようとしています。 ゴールドマン・サックス 経済研究所は、2025年までにAIへの投資が米国で1,000億ドル、世界全体で2,000億ドルに達する可能性があると予測しています。 しかし、企業がAIを導入する際には、AIの目標に対する信頼を確立するために、品質、セキュリティ、およびガバナンスをカバーする責任あるAIの実践を優先することが
Databricksにおけるマルチモデル予測のためのフレームワーク
はじめに 時系列予測は、多くの企業における在庫管理や需要管理の基盤となっています。過去のデータと予測される条件を組み合わせて、企業は売上や販売数量を予測し、期待される需要に応じてリソースを配分します。このような基本的な作業であるため、企業は常に予測の精度を向上させる方法を探求しています。これにより、適切なタイミングで適切な場所にちょうど良い量のリソースを配置し、資本の無駄遣いを最小限に抑えることができます。 多くの組織が直面する課題は、利用可能な予測手法の幅広さです。古典的な統計手法、一般化加法モデル、機械学習や深層学習に基づくアプローチ、そして最近では事前学習された生成的AIトランスフォーマーなど、選択肢が非常に多く、シナリオによってはある手法が他の手法よりも優れていることがあります。 多くのモデル開発者は、ベースラインのデータセットに対して予測精度の向上を主張しますが、実際にはドメイン知識やビジネス要件によって、選択肢は数種類に絞られます。その上で、実際のデータセットに適用し評価することで、どのモデルが最適か