メインコンテンツへジャンプ
ページ 1
>

Databricksへの移行のナビゲーション:アーキテクチャと戦略的アプローチ

私たちの 前回のブログ では、複雑なデータウェアハウスの移行をDatabricksに実行するための、プロフェッショナルサービスチームが推奨する方法論を探求しました。このようなプロジェクト中に生じる複雑さや課題を強調し、移行戦略と設計フェーズでの重要な決定の重要性を強調しました。これらの選択は、移行の実行と目標データプラットフォームのアーキテクチャの両方に大きな影響を与えます。この投稿では、これらの決定に深く踏み込み、移行プロセス全体で情報に基づいた効果的な選択を行うための主要なデータポイントを概説します。 移行戦略:まずETLか、それともまずBIか? あなたが移行戦略を確立し、高レベルの目標データアーキテクチャを設計したら、次に決定することは、どのワークロードを最初に移行するかです。二つの主要なアプローチがあります。 ETLファーストの移行(バックからフロントへ) BIファーストの移行(フロントからバックへ) ETLファーストの移行:基盤の構築 ETLファースト(バックからフロントへ)で移行する方法は、包括的なレ

Apache Spark™ Structured Streamingでの変更データキャプチャのシンプル化

このブログでは、Apache Spark™ Structured StreamingのState Reader APIの新しい変更フィードとスナップショット機能について説明します。State Reader APIは、ユーザーがStructured Streamingの内部状態データにアクセスし、分析することを可能にします。読者は、新機能を活用してデバッグ、トラブルシューティング、状態変更の効率的な分析を学び、ストリーミングワークロードをスケールで容易に管理する方法を学びます。 状態変化を簡単に処理する方法 データエンジニアリングの絶えず進化する風景の中で、Apache Spark Structured Streamingは、大規模なリアルタイムデータの処理のための基盤となっています。しかし、 ストリーミングワークロード が複雑さを増すにつれて、これらのシステムを開発、デバッグ、トラブルシューティングする課題も増大します。2024年3月、Databricksは State Reader API を導入することで、こ

MLOpsベストプラクティス - MLOpsジム: Crawl

January 6, 2025 Sepideh Ebrahimi による投稿 in
はじめに MLOpsは一度きりのプロジェクトではなく、継続的な旅です。それは、単なるツールや特定の技術スタックにとどまらず、実践と組織の行動に関わるものです。あなたのML(機械学習)チームがどのように協力し、AIシステムを構築するかは、結果の質に大きな影響を与えます。MLOpsのすべての詳細が重要です—コードの共有方法やインフラの設定、結果の説明方法に至るまで。これらの要素が、ビジネスにおけるAIシステムの効果に対する認識と、その予測を信頼する意欲を形作ります。 『The Big Book of MLOps 』は、DatabricksにおけるMLOpsの高レベルな概念とアーキテクチャをカバーしています。これらの概念を実装するための実践的な詳細を提供するために、 MLOps Gymシリーズ を紹介しました。このシリーズでは、DatabricksでのMLOps実装に欠かせない重要なトピックを取り上げ、各トピックに対するベストプラクティスと洞察を提供します。シリーズは「Crawl(這う)」、「Walk(歩く)」、「Ru

セマンティックキャッシュで実現!コスパ最強チャットボット構築

チャットボットは、ビジネスにとって価値あるツールとなりつつあり、 効率を向上させる ためや 従業員をサポートする ために役立ちます。LLMは、企業のデータやドキュメンテーションを大量に探し、幅広い問い合わせに対して情報を提供することで、従業員をサポートできます。経験豊富な従業員にとって、これは冗長で生産性の低いタスクに費やす時間を最小限に抑えるのに役立ちます。新入社員にとって、これは正しい答えを得るまでの時間を短縮するだけでなく、これらの従業員を オンボーディング を通じてガイドし、 知識の進行 を評価し、さらなる学習と開発のためのエリアを提案するのにも使用できます。 これらの機能は、今後も 労働者を補完する 可能性が高いと見られています。そして、多くの先進国で労働者の利用可能性に 差し迫った課題 がある中、多くの組織は、彼らが提供できるサポートを最大限に活用するために、内部プロセスを再構築しています。 LLMベースのチャットボットのスケーリングはコストがかかる チャットボットを大規模に導入する準備をしている企業

Databricksへの移行戦略:成功のための教訓

データウェアハウスのワークロードを移行することは、あらゆる組織にとって最も難しいながらも重要なタスクの一つです。移行の動機がビジネスの成長とスケーラビリティの要件であれ、既存のレガシーシステムの高いライセンス・ハードウェアコストの削減であれ、単にファイルを転送するだけではありません。Databricks では、プロフェッショナルサービス(PS)チームが何百もの顧客やパートナーと共に移行プロジェクトに取り組み、数多くの成功事例を積み上げてきました。このブログでは、移行の範囲設定、設計、構築、実行においてデータプロフェッショナルが考慮すべきベストプラクティスと教訓を探ります。 移行を成功させるために: 5段階のプロセス Databricksでは、私たちの経験と専門知識に基づいて、移行プロジェクトのための5段階のプロセスを開発しました。 移行プロジェクトを開始する前に、まず ディスカバリー フェーズから始めます。このフェーズでは、移行の背後にある理由と既存のレガシーシステムの課題を理解することを目指しています。私たちは

Logically AIでGPU推論をターボチャージ!

2017年に設立された Logically は、AIを使用してクライアントのインテリジェンス能力を強化する分野のリーダーです。ウェブサイト、ソーシャルプラットフォーム、その他のデジタルソースから大量のデータを処理し分析することで、Logicallyは潜在的なリスク、新たな脅威、重要なナラティブを特定し、それらをサイバーセキュリティチーム、プロダクトマネージャー、エンゲージメントリーダーが迅速かつ戦略的に行動できるように整理します。 GPU加速はLogicallyのプラットフォームの重要な要素であり、高度に規制されたエンティティの要件を満たすためのナラティブの検出を可能にします。GPUを使用することで、Logicallyは訓練と推論の時間を大幅に短縮し、ソーシャルメディアやインターネット全体での偽情報の拡散を防ぐために必要なスケールでのデータ処理を可能にしました。現在のGPUリソースの不足も、最適なレイテンシとAIプロジェクトの全体的な成功を達成するために、その利用を最適化することが重要であることを意味します。 ロ

カスタムのテキストからSQL生成するアプリケーションで金融のインサイトを解き放つ!

序章 取得強化生成(RAG)は、大規模言語モデル(LLM)を使用して企業が非構造化知識ベースを活用する方法を革新し、その可能性は広範に影響を及ぼします。 インターコンチネンタルエクスチェンジ(ICE) は、世界最大の証券取引所グループであるニューヨーク証券取引所(NYSE)を含む、取引所、クリアリングハウス、データサービス、住宅ローン技術を運営するグローバルな金融組織です。 ICEは、既存のアプリケーションからのデータ移動を必要とせずに、構造化されたRAGパイプラインを持つことで、構造化データ製品の自然言語検索のシームレスなソリューションを先駆的に開発しています。このソリューションは、エンドユーザーがデータモデル、スキーマ、またはSQLクエリを理解する必要性を排除します。 ICEチームはDatabricksエンジニアと協力して、Databricks Mosaic AI製品のフルスタック( Unity Catalog , Vector Search , Foundation Model APIs , and Mod

ノートブック、ジョブ、パイプラインのサーバーレスコンピューティングにおけるコスト削減

私たちは最近、ノートブック、ジョブ、パイプラインのための サーバーレスコンピューティングの一般提供開始 を発表しました。サーバーレスコンピューティングは、ワークロードの迅速な起動、自動的なインフラストラクチャのスケーリング、およびDatabricksランタイムのシームレスなバージョンアップグレードを提供します。私たちはサーバーレスの提供における革新を続け、あなたのワークロードのための価格/パフォーマンスを継続的に改善することに専念しています。今日は、サーバーレスのコスト体験を改善するためのいくつかの発表を行うことを楽しみにしています: ほとんどの顧客、特に短期間のワークロードを持つ顧客にとって、 コストを25%以上削減 する効率改善。 強化されたコストの可視性 は、個々のノートブック、ジョブ、パイプラインレベルでの支出を追跡し監視するのに役立ちます。 ジョブとパイプラインに対して、 パフォーマンスよりもコストを最適化するという選択を示すことができる シンプルなコントロール(将来利用可能)。 新しいサーバーレスコン

スーパーノヴァ!ブラックホール!ストリーミングデータ!

August 12, 2024 フランク・ムンツ による投稿 in
Translation Reviewed by Akihiro.Kuwano 概要 このブログ投稿は、Data + AI Summit 2024でのセッション スーパーノヴァからLLMsへ のフォローアップで、ここでは誰でもApache Kafkaから公開されているNASAの衛星データを消費し、処理する方法を示しました。 多くのKafkaのデモとは異なり、再現性が低いか、シミュレートされたデータに依存しているのではなく、私はNASAの公開されている ガンマ線座標ネットワーク (GCN)からのライブデータストリームの分析方法を示します。これは、さまざまな衛星から来るスーパーノヴァとブラックホールのデータを統合しています。 オープンソースの Apache Spark™ と Apache Kafka だけを使ってソリューションを作ることも可能ですが、このタスクには...

Databricksデータインテリジェンスプラットフォームで実現する責任あるAI

人工知能(AI)の変革的な可能性は明白です。生産性の向上、コスト削減、そしてあらゆる業界での意思決定の改善に至るまで、AIはバリューチェーンを革新しています。特に2022年後半からの生成AIの登場、特にChatGPTのリリース以来、この技術に対する市場の関心と熱意はさらに高まっています。 McKinsey and Co. によると、生成AIの経済的潜在能力、つまりAIによって可能になるユースケースや労働者の生産性は、世界経済に17兆ドルから26兆ドルの価値をもたらす可能性があるとされています。 この結果として、ますます多くの企業が、競争優位性を築くためにAIをビジネス戦略の中心に据えようとしています。 ゴールドマン・サックス 経済研究所は、2025年までにAIへの投資が米国で1,000億ドル、世界全体で2,000億ドルに達する可能性があると予測しています。 しかし、企業がAIを導入する際には、AIの目標に対する信頼を確立するために、品質、セキュリティ、およびガバナンスをカバーする責任あるAIの実践を優先することが