2024年8月30日

データエンジニアリングとGenAI：実践者が必要とするツール

によって Databricks Staff による投稿

最近のMIT Tech Review Reportによると、調査対象の組織の71％が自社のGenAIモデルを構築する予定であることが示されています。これらのモデルのために独自のデータを活用する作業が増えるにつれて、多くのデータプラクティショナーが直面する共通の現実：良質なデータがなければ、どれほど優れたGenAIモデルでも成功には至りません。

この現実は、大量のデータを効率的に取り込んだり、ストリームしたりし、高いデータ品質を確保できる信頼性の高いデータパイプラインを構築する重要性を強調しています。言い換えれば、データプラクティショナーにとって、質の高いデータエンジニアリングはGenAIを含むすべてのAI戦略において成功の鍵となります。

この努力に関与する多くのタスクは、最終的なワークロードに関係なく同じままですが、GenAIアプリケーションを構築する際にデータエンジニアが準備する必要がある新たな課題があります。

コア機能

データエンジニアの仕事は通常、3つの主要なタスクにわたります：

取り込み： 多くのソースからデータを取得し - オンプレミスまたはクラウドストレージサービス、データベース、アプリケーションなどを含む - 一つの場所に集めること。
変換: フィルタリング、標準化、クリーニング、集約を通じて生データを使用可能な資産に変える。しばしば、企業はメダリオンアーキテクチャ（ブロンズ、シルバー、ゴールド）を使用して、プロセスの異なる段階を定義します。
オーケストレーション： 取り込みと変換のジョブをスケジューリングし、監視するプロセス、およびデータパイプライン開発の他の部分を監督し、失敗に対処すること。

AIへのシフト

AIがより重視されるようになると、これらの各機能に新たな課題が浮上してきます：

リアルタイムデータの処理：より多くの企業が情報を即時に処理する必要があります。これは、AIを使用してマシンの健康を最適化する製造業者、不正行為を防ぐために銀行が試みる、または小売業者がショッパーにパーソナライズされたオファーを提供することが含まれます。これらのリアルタイムデータストリームの成長は、データエンジニアが責任を負う別の資産を追加します。
信頼性の高いデータパイプラインのスケーリング： データパイプラインが多ければ多いほど、ビジネスにかかるコストは高くなります。問題が発生したときに監視し、トラブルシューティングする効果的な戦略がなければ、内部チームはコストを抑え、パフォーマンスを高めることに苦労します。
データ品質の確保：モデルに入力されるデータの品質がその出力の品質を決定します。企業は、より多くのAIシステムを現実の世界に移行するために必要なエンドパフォーマンスを提供するために、高品質なデータセットが必要です。
ガバナンスとセキュリティ：私たちは毎日ビジネスから聞いています：データはどこにでもあります。そしてますます、内部チームはビジネス全体の独自のシステムに閉じ込められた情報を自分たちのユニークな目的のために使用したいと考えています。これにより、ITリーダーには、増え続けるデータエステートを統一し、どの従業員がどの資産にアクセスできるかをより厳しく管理する新たなプレッシャーがかかっています。

プラットフォームアプローチ

データプラクティショナーが直面する多様かつ進化する課題に応えるため、Databricksはデータインテリジェンスプラットフォームを提供しています。データプラクティショナーやエンジニアリングチームにとって特に重要な機能には、以下のものがあります：

Delta Lake： 構造化または非構造化、オープンソースのストレージ形式は、企業が取り込もうとしている情報の種類が何であるかはもはや問題ではありません。Delta Lakeは、ビジネスがデータ品質を向上させ、外部パートナーと簡単かつ安全に共有するのを助けます。そして今、Delta Lake UniFormがHudiとIcebergの間の障壁を取り払うことで、企業は自社の資産をさらに厳密に管理することができます。
Delta Live Tables: エンジニアリングチームがストリーミングとバッチワークロードを簡素化し、PythonとSQLの両方でコストを削減するのを助ける強力なETLフレームワーク。
Databricksワークフロー: データとAIのためのシンプルで信頼性の高いオーケストレーションソリューションで、エンジニアリングチームは高度な制御フロー機能、ワークフローの実行を監視・視覚化するための高度な観測性、スマートなスケーリングと効率的なタスク実行のためのサーバーレスコンピューティングオプションを提供します。
Unityカタログ: Unityカタログを使用すると、データエンジニアリングとガバナンスチームは、パーミッションの管理、集中監査、列レベルまでのデータ系統を自動的に追跡し、プラットフォーム、クラウド、地域間でデータを共有するための単一インターフェースを備えた企業全体のデータカタログから利益を得ることができます。

AI時代のニーズにあわせて、あなたの会社のエンジニアリングチームをどのように適応させるかについて詳しく知りたい方は、"データエンジニアリングの大全"をご覧ください。

データエンジニアリングとGenAI：実践者が必要とするツール

コア機能

AIへのシフト

プラットフォームアプローチ

最新の投稿を受信トレイで受け取る

Sign up