メインコンテンツへジャンプ

最近のMIT Tech Review Reportによると、調査対象の組織の71%が自社のGenAIモデルを構築する予定であることが示されています。これらのモデルのために独自のデータを活用する作業が増えるにつれて、多くの人が同じ厳しい真実に直面します:良いデータがなければ、世界で最も優れたGenAIモデルも成功しません。

この現実は、大量のデータを効率的に取り込んだり、ストリームしたりし、高いデータ品質を確保できる信頼性の高いデータパイプラインを構築する重要性を強調しています。言い換えれば、良好なデータエンジニアリングは、GenAIを含むすべてのデータとAIのイニシアチブにおいて成功の重要な要素です。

この努力に関与する多くのタスクは、最終的なワークロードに関係なく同じままですが、GenAIアプリケーションを構築する際にデータエンジニアが準備する必要がある新たな課題があります。

コア機能

データエンジニアの仕事は通常、3つの主要なタスクにわたります:

  • 取り込み: 多くのソースからデータを取得し - オンプレミスまたはクラウドストレージサービス、データベース、アプリケーションなどを含む - 一つの場所に集めること。
  • 変換: フィルタリング、標準化、クリーニング、集約を通じて生データを使用可能な資産に変える。しばしば、企業はメダリオンアーキテクチャ(ブロンズ、シルバー、ゴールド)を使用して、プロセスの異なる段階を定義します。
  • オーケストレーション: 取り込みと変換のジョブをスケジューリングし、監視するプロセス、およびデータパイプライン開発の他の部分を監督し、失敗に対処すること。

AIへのシフト

AIがより重視されるようになると、これらの各機能に新たな課題が浮上してきます:

  • リアルタイムデータの処理:より多くの企業が情報を即時に処理する必要があります。これは、AIを使用してマシンの健康を最適化する製造業者、不正行為を防ぐために銀行が試みる、または小売業者がショッパーにパーソナライズされたオファーを提供することが含まれます。これらのリアルタイムデータストリームの成長は、データエンジニアが責任を負う別の資産を追加します。
  • 信頼性の高いデータパイプラインのスケーリング: データパイプラインが多ければ多いほど、ビジネスにかかるコストは高くなります。問題が発生したときに監視し、トラブルシューティングする効果的な戦略がなければ、内部チームはコストを抑え、パフォーマンスを高めることに苦労します。
  • データ品質の確保:モデルに入力されるデータの品質がその出力の品質を決定します。企業は、より多くのAIシステムを現実の世界に移行するために必要なエンドパフォーマンスを提供するために、高品質なデータセットが必要です。
  • ガバナンスとセキュリティ:私たちは毎日ビジネスから聞いています:データはどこにでもあります。そしてますます、内部チームはビジネス全体の独自のシステムに閉じ込められた情報を自分たちのユニークな目的のために使用したいと考えています。これにより、ITリーダーには、増え続けるデータエステートを統一し、どの従業員がどの資産にアクセスできるかをより厳しく管理する新たなプレッシャーがかかっています。

プラットフォームアプローチ

我々はこの多様で成長し続ける一連の課題に対応できるように、データインテリジェンスプラットフォームを構築しました。エンジニアリングチームにとって最も重要な特徴の中には:

  • Delta Lake: 構造化または非構造化、オープンソースのストレージ形式は、企業が取り込もうとしている情報の種類が何であるかはもはや問題ではありません。Delta Lakeは、ビジネスがデータ品質を向上させ、外部パートナーと簡単かつ安全に共有するのを助けます。そして今、Delta Lake UniFormがHudiとIcebergの間の障壁を取り払うことで、企業は自社の資産をさらに厳密に管理することができます。
  • Delta Live Tables: エンジニアリングチームがストリーミングとバッチワークロードを簡素化し、PythonとSQLの両方でコストを削減するのを助ける強力なETLフレームワーク。
  • Databricksワークフロー: データとAIのためのシンプルで信頼性の高いオーケストレーションソリューションで、エンジニアリングチームは高度な制御フロー機能、ワークフローの実行を監視・視覚化するための高度な観測性、スマートなスケーリングと効率的なタスク実行のためのサーバーレスコンピューティングオプションを提供します。
  • Unityカタログ: Unityカタログを使用すると、データエンジニアリングとガバナンスチームは、パーミッションの管理、集中監査、列レベルまでのデータ系統を自動的に追跡し、プラットフォーム、クラウド、地域間でデータを共有するための単一インターフェースを備えた企業全体のデータカタログから利益を得ることができます。

AI時代のニーズにあわせて、あなたの会社のエンジニアリングチームをどのように適応させるかについて詳しく知りたい方は、"データエンジニアリングの大全"をご覧ください。

Databricks 無料トライアル

関連記事

データ共有の民主化!プラットフォームに縛られないアプローチとは?

すべての業界の企業が、協力を促進し、イノベーションを加速するために、互いにデータを共有したいと考えています。しかし、これらの組織はしばしば異なるデータやクラウドプラットフォームを使用しており、これが摩擦を生じさせたり、協力を阻害したりします。DatabricksとLinux Foundationは、Delta Sharingを開発し、プラットフォーム、クラウド、地域間でのデータ共有に対する初のオープンソースアプローチで、データ交換の民主化における重要なマイルストーンを達成しました。 Delta Sharing を使用すると、顧客は自身のプラットフォームと顧客ベース内での協力に限定されることなく、すべての顧客、パートナー、その他の協力者とデータを共有することができます。 2022年にDelta Sharingの一般提供を発表して以来 、多くの企業がそれを採用し、クラウドやプラットフォームに関係なく、顧客やパートナーとの連携を最大化しています。Databricksの顧客は、Databricks-to-Databric

モダンデータスタック:データアーキテクチャの進化がどのようにしてデータインテリジェンスプラットフォームをもたらしたのか

May 1, 2024 マニッシュ・アガルワル による投稿 in データ戦略
モダンデータスタックは、データの量と複雑さが増加し続ける中で、データの収集、保存、分析の難しさに対処するために設計されています。 ビジネスの成功がデータ主導の洞察とAIに依存するようになるにつれ、効果的で信頼性の高いデータ管理が不可欠です。 では、モダンデータスタックとはどのようなもので、データ活用を最適化するためにどのように設計されているのでしょうか。 モダンデータスタックとレガシーなデータスタックの違い、あらゆる業界のビジネスにもたらすメリット、データから成功を収めるために必要なモダンデータスタックツールについて理解しましょう。 データとAIの目標を加速させる方法については、新しい エグゼクティブ・ガイドを ご覧ください。 モダンデータスタックとはどういう意味ですか? 「データスタック」とは、生データを処理するさまざまなテクノロジーの集合体を指します。 モダンデータスタックは、データの取り込み、整理、保存、変換に使用されるツールで構成されています。 これらのツールは、データを「食べられないデータ」(扱えないデ

ビジネスにおけるAIはデータインテリジェンスでどう変わるか

April 17, 2024 ミン・ヤン による投稿 in 生成 AI
AIは至る所に存在します。携帯電話にも、コンピューターにも、そしてニュースの見出しにも頻繁に登場します。 しかし、すべての見出しの背後で、ビジネスにおけるAIの利用が不可欠となっており、今後もその使用が無くなる兆しはありません。 では、データインテリジェンスの未来は、企業にとってのAIにどのような影響を与えるのでしょうか? 私たちは、AIが現在どのように活用されているのか、今後さまざまな業界でどのように活用される可能性があるのか、また、データ管理システムの内部と外部、そして独自の課題を探ることで、この問いに答え、データインテリジェンスがビジネスにおけるAIの活用にどのような革命をもたらすことができるのかを理解します。 ビジネスにおけるAI活用の現状 ワークフローの合理化からデータ分析まで、AIの活用はあらゆる規模、あらゆる業界のビジネスの主流となっています。 1. よりスマートなリスク管理 明確なリスク管理戦略を持つことは現代企業にとって必須ですが、個人が計画できることは限られています。 利用可能なデータの量が多
プラットフォームブログ一覧へ