メインコンテンツへジャンプ

Hadoop(ハドゥープ)とは、分散処理技術(分散処理基盤)とも呼ばれ、テキストや画像、動画などの非構造化データの格納と処理ができるオープンソースのプラットフォームのことです。ファイルの管理には、分散ファイルシステム HDFS(Hadoop Distributed File System)が使用されていることが特徴です。長年にわたり、この Hadoop(ハドゥープ)はビッグデータの分析を支えるデフォルトのテクノロジーでした。しかし、時間の経過とともに、その欠点をカバーし、かつ、より優れた分析ソリューションを提供する新たなテクノロジーが登場し、Hadoop は遅れをとるようになりました。多くの企業が Hadoop 運用を続けることによるTCO(総所有コスト)を見直し、最新のクラウドベース分析プラットフォームへの移行を是認する方向に動いています。Databricks では先日、ホワイトペーパー「The Hidden Value of Hadoop Migration」(Hadoop からの移行に伴う潜在価値)を発表しました。このホワイトペーパーでは、Hadoop からの移行により創出されるビジネス価値を解説しています。データを扱う担当者が、経営陣に移行への投資を説得する際の資料としても参考いただける内容となっています。

Databricks は 1,380 万ドルを超える潜在価値を創出

このホワイトペーパーの 3 つの主要なトピック

  1. クラウドベース分析プラットフォームへの移行による、ライセンスや保守などの運用における TCO(総所有コスト)の削減。
  2. 最新のクラウドベース分析プラットフォームの活用による、ビジネス成果が大きい高度なユースケースへの対応。これが、まさに Hadoop からの移行に伴う潜在価値です。
  3. Hadoop プラットフォームからクラウドへの移行を躊躇することにより引き起こされる、移行コストの増加、生産性やイノベーション向上の遅延。

TCO の正確な把握

総所有コスト(TCO)を削減するために、ほとんどの企業ではまず、オンプレミスの Hadoop から移行して、欠点の 1 つである Hadoop システムのライセンスコストを削減することを検討します。もちろん、それだけでも移行する十分な理由になります。しかし、表面的な分析だけでは、Hadoop のコストの高さや、クラウドベースのソリューションへの移行で得られる価値の大きさを正確に見積もることができず、社内での資金調達は依然として難しいでしょう。Hadoop のコストを正確に把握するには、一歩下がって考える必要があります。

通常、総所有コスト(TCO)にライセンスコストが占める割合は極めて低いものです。Databricks のお客様のベンチマークによると、ライセンスコストは TCO の 15% 以下であるのに対し、データセンターの管理コストは 50% 近くを占めることがわかりました。追加コストには次のものがあります。

  • ハードウェアの容量超過にかかるコスト:オンプレミスでは、ハードウェアの容量超過が発生するため、最大のニーズに合わせてスケールアップできるように設定されています。しかし、その容量はほとんどの場合、アイドル状態です。
  • スケーリングコスト:スケーリングにかかるコストはすぐに増大します。オンプレミスの Hadoop(ハドゥープ)と HDFS では、ストレージとコンピューティングを分離する機能がないため、データセットの増加に伴い、コストが増大します。さらに、重要な気づきを得るために組織では、さまざまなソースにわたる大規模なデータセットが必要としており、このコストはプロセスの一部に過ぎません
  • DevOps 工数:DevOps の負担が大きいことも追加コストです。Databricks のお客様の実経験から計算すると、100 ノードあたりに 4~8 人の正社員が必要です。
  • 電力コスト:サーバーの消費量と冷却量をもとに計算すると、サーバー 1 台あたりの電力コストは年間 800 ドルになる可能性があります。100 ノードの Hadoop クラスタがあると想定すると、年間 8 万ドルになります。
  • ハードウェアの新規購入・交換コスト:これは Hadoop クラスタの管理費に相当し、TCO の約 20% を占めます。

このように、Hadoop(ハドゥープ)の欠点であるコストを考慮すれば、移行は当然の流れと言えるでしょう。

しかし、真の Hadoop からの移行に伴う潜在価値は、より高度なユースケースに対応し、生産性を向上させる、最新のクラウドベース分析プラットフォームの活用です。クラウドベース分析プラットフォームでは、あらゆるデータ、分析、AI を単一の統合データプラットフォームに集約することで、データウェアハウスとデータレイクの長所を組み合わせたレイクハウスアーキテクチャが構築され、データ、分析、AI のワークロードに対するコラボレーションが可能になります。これにより、データ処理がより迅速かつシンプルになり、データチームの生産性とコラボレーションが向上し、革新的な機械学習のユースケースに対応できるスケールが得られます。また、これらのユースケースは、収益の増加、総所有コスト(TCO)削減、リスクの軽減につながります。このため、最新のクラウドベース分析プラットフォームの導入に消極的な企業は、ビジネス推進のためのデータの活用に投資する企業に大幅に遅れをとることになります。

レガシーテクノロジーのビジネスコストを算出する

よくある移行は、Hadoop システムのエクスペリエンスをクラウドで再現することです。しかし、それでは、性能とユースケースの制限、従業員の生産性という点で同じ問題に直面します。Databricks は、これらの課題を解決するために構築されており、Hadoop(ハドゥープ)と HDFS から移行するお客様に、インフラ、生産性、ビジネス効果の3つの面で価値を提供します。このホワイトペーパーでは、私たちのアプローチと実例についてさらに詳しく説明しています。

隠れたコストは、必ずしも直感的に判断できるものではありません。そこで Databricks では、コストフレームワークを作成し、移行によるお客様の組織への効果を試算できるようにしました。

databricks hadoop migration blog image

次のステップ

このブログでは、Databricks 移行による総所有コスト(TCO)の大幅な削減と、チームのビジネス価値を高める方法について、ほんの少しだけ触れました。Hadoop(ハドゥープ)からの移行の関連トピックや、実際のお客様における導入事例は、 ホワイトペーパー「Hadoop からの移行に伴う潜在価値」 でもっと詳しい内容をご紹介しています。また、Databricks への移行に関する詳細情報は、Web サイトwww.databricks.com/migrationをご覧ください。

Databricks 無料トライアル
Databricks ブログ一覧へ