データの移行
企業はかつてないほどデータに依存しています。データを効果的に活用するためには、最適なデータプラットフォームの利用が重要であり、そのためには、データ移行が必要になることもあります。
データ移行に関するご質問や、データ移行を成功させる手法について、Databricks がお答えします。
データ移行とは
データ移行とは、デジタル情報をあるプラットフォームから別のプラットフォームに移動させるプロセスです。これには、ストレージシステム、コンピューティング環境、データベース、データセンター、または他のアプリケーションへの移行や、異なるファイル形式間でのデータ転送も含まれます。
移行プロセスには、データを選択し、準備し、転送前に抽出する作業が含まれます。また、場合によってはデータのクリーニングや変換も行います。データがターゲットシステムで正しく動作することを確認するために、転送中や転送後にデータの検証が必要です。
データ移行の定義を理解したうえで、次にその理由や方法について詳しく説明します。
Databricks についてさらに詳しく
企業がデータ移行を行う理由
企業は通常、従来のソフトウェアやハードウェアを置き換えたり、アプリケーションを 1 つのシステムに統合したりする場合に、データ移行を行います。例えば、エンタープライズデータウェアハウスやレガシーデータレイクから Databricks データインテリジェンスプラットフォームに移行することで、データプラットフォームを簡素化できます。
データ移行の一般的な理由の例をいくつかご紹介します。
- 既存のストレージシステムの交換、アップグレード、拡張
- データセットを共有する新規システムと既存システムの統合
- 合併または買収のための事業再編による移行
- 情報システムの統合
- 分析用データの準備
- データベースとビジネスデータの一元化
- レガシーデータのアーカイブ
- 保管・運用コストの削減
- より安全なデータセンターへの移転
- データハンドリングのコンプライアンスを向上させるため
- エネルギー使用と環境フットプリントの削減
データ移行の種類
データ移行にはいくつかの種類があり、企業はビジネスニーズに応じて複数のデータ移行を行うことがよくあります。主なデータ移行のアプローチについて説明します。
ストレージ
ストレージの移行とは、ハードウェアベースのストレージからクラウドベースのストレージ、ハードディスクドライブからソリッドステートドライブなど、あるストレージから別のストレージにデータを移行することです。新しいストレージデバイスは、同じ建物内にある場合もあれば、遠隔地のデータセンターにある場合もあります。このタイプの移行では、通常、データの内容や形式を変更することはありません。
データベース
データベースファイルを新しいプラットフォーム、通常は新しいデータベース管理システム(DBMS)に移行することを意味します。また、現在のバージョンの DBMS からアップグレードされたバージョンにデータを移行することもあります。このプロセスにはデータ変換が必要な場合が多く、ストレージの移行よりも複雑です。
アプリケーション
これは、アプリケーションやプログラムをあるコンピューティング環境から別のコンピューティング環境に移行することで、例えば、旧式のコンピューティングシステムからより効率的なモダンネットワークに移行することです。これには、データベースとストレージの両方の移行が含まれます。通常、既存のソフトウェアプラットフォームが変更された場合や、企業がソフトウェアやベンダーを変更することを選択した場合に発生します。
クラウド
クラウド移行とは、データ(またはアプリケーション)をオンプレミスからクラウドへ、あるいは異なるクラウド環境間で移動させることを意味します。全てのデータ、アプリケーション、サービスを移行することも、一部だけを移行することもできます。企業は通常、コスト削減とデータの一元化のためにクラウド移行を行います。
ビジネスプロセス
この種の移行では、ビジネスアプリケーションと、顧客、製品、業務情報などのビジネスプロセスに関するあらゆるデータを新しい環境に移行します。ビジネスプロセスの移行は通常、プロセスを最適化し、組織の管理を効率化するために行われます。
2 つのデータ移行戦略
データ移行戦略とは、移行プロセスをどのように行うかについての包括的な計画であり、以下のアプローチのいずれかを選択することから始まります。
ビッグバン移行
ビッグバン移行は、設定された時間内に全てのデータを一度にターゲット環境に移動させる方法です。この方法の利点は、全てが計画通りに進めば、移行にかかる時間が短く、コストも抑えられる点です。ただし、移行中は全てのシステムが停止し、利用できなくなります。データ量が少ない小規模な企業であれば、週末や祝日に移行作業を行うことで対応できるかもしれません。
トリクルダウン移行
トリクルダウン移行は、段階的または反復的な移行です。移行をサブプロセスに分割し、それぞれに範囲と期間を設定します。データは少しずつ移行され、旧システムは移行プロセス中も稼動し続けます。この手法は、ダウンタイムがなく、リスクが少ないことを意味しますが、ユーザーが 2 つのシステムを切り替えられるようにする必要があるため、より複雑で時間とコストがかかります。
データ移行の主要な課題
データ移行は多くのメリットをもたらしますが、注意しなければならない課題もあります。
データの破損または損失
データ移行の最も一般的なリスクの 1 つは、データ損失です。自動的な切り捨て、フォーマットの非互換性、不明な検証設定、ネットワークの干渉などにより、情報が失われる可能性があります。ソースデータを適切に準備・フォーマットし、データの依存関係やセマンティクスを考慮しなければ、新システムに取り込んだ時点で、データにギャップやエラー、重複が生じる可能性があります。
事業継続と予期せぬコスト
ビッグバ ン移行のアプローチを適用すると、システムは一定期間ダウンし、当然ビジネスに影響を及ぼします。移行プロセスに予想以上の時間がかかると、事業継続性や予算に影響します。また、移行に失敗した場合、高額な費用が発生します。
データガバナンスとセキュリティ
移行はデータガバナンスとセキュリティにリスクをもたらしますが、特に事前に移行先システムのセキュリティ権限を十分にテストしていない場合は注意が必要です。例えば、データを暗号化したり、移行プロセス用に仮想プライベートネットワークを構築したりといったプロトコルを導入しなければ、機密情報の漏洩や紛失といったデータ移行の問題に直面する可能性があります。
データとシステムの統合
データスタックにはおそらく連携する複数のツールがありますが、新しい環境でもそれらがシームレスに統合されることを保証するのは難しいことです。統合できなければ、生産性に問題が生じます。新しいデータストレージソリューションに合わせて構造、属性、形式を変更しない限り、データ統合がうまくいかないことに気づくかもしれません。
データ移行プロセスの計画
データ移行には、予算の設定やリスクの評価など、明確な計画を立てることが不可欠です。成功するデータ移行計画には、5 つの重要なステップがあります。
1. ターゲットシステムに対する理解を深める
まず、データの移行先を理解する必要があります。次に、移行先システムの要件と仕様を評価し、既存のデータの構造を新しいデータシステムにマッピング します。こうすることで、新しい構造と形式に沿ったデータであることを確認し、必要なセキュリティ権限を含め、移行先の環境を設定できます。
2. 既存データの評価
次に、データの量、質、安定性を評価する必要があります。潜在的な競合や重複がないかを確認し、データ標準を設定してこれらを軽減します。必要に応じてデータをクリーニングし、有効で高品質なデータのみを移行できるようにします。プロファイリング機能を使用して検出を自動化し、アナライザ機能でコードの複雑性を詳細に評価し、移行プロジェクトのコストを見積もるのが得策です。
3. 戦略の設計
移行アプローチを選択し、それを実現するためのロードマップを作成します。必要なシステムやツール、データ変換プロセス、移行テストの手順、セキュリティプロトコルなどをリストアップする必要があります。コストを見積もり、現実的な予算と完了までのスケジュールを設定します。利害関係者とのコミュニケーション方法を明記し、緊急時対応策を戦略に組み込む必要もあります。
4. 試験運用の実施
移行を始める前に、移行が現実にうまくいくかどうかをテストすることが重要です。通常、本番環境のミラーを使用してこれを行いますが、より小さなデータセット、ダミーデータ、または本番システムデータのコピーを使用してテストすることもできます。テストが完了したら、実際の移行を開始する前に、改善が必要かどうかを確認できるはずです。
5. 移行の実行
これで、戦略で説明したガイダンスに従って移行を進めることができます。ETL(抽出、変換、ローディング)プロセスも、この時点で稼動します。新しい環境でデータを検証し、移行が成功したと確信したら、古いシステムをシャットダウンします。
データ移行の 5 つのベストプラクティス
データ移行をスムーズに行うためのベストプラクティスをご紹介します。
1. データのバックアップを取る
移行中に貴重なデータを失わないようにする唯一の方法は、徹底的にバックアップを取ることです。そうすれば、何か問題が起きてデータが失われたり破損したりしても、バックアップから取り出して復元できます。ローカルバックアップやオフサイトのクラウドバックアップなど、複数のバックアップを用意しておくと、自社のサーバーが危険にさらされてもデータを保護できます。
2. ビジネスユースケースと要件の定義
移行のアプローチを決定したり、戦略を計画したりする前に、移行のビジネスケースを明確に定義してください。なぜ移行する必要があるのですか?どのようにビジネスを改善するのですか?このデータを何に使うのですか?プロジェクトをより広範なビジネス目標と整合させ、新システムのビジネス要件を検討します。また、データの使用許可を概説し、計画に文書化することも重要です。
3. 専門チームの設置
データ移行は複雑な場合があるため、プロジェクトの管理には専門家が必要です。チームには、データ移行に豊富な経験を持つ人材が少なくとも 1 人含まれていることが理想的です。
適切なチームを編成したら、責任を分担して説明責任を遂行します。社内に必要なスキルがない場合は、外部のコンサルタントを雇ってプロセスを支援する価値があるかもしれません。Databricks プロフェッショナルサービスでは、移行実行の支援を受けることができます。
4. 戦略に忠実に
多くの時間と労力を費やしてデータ移行のアプローチを選択し、計画を策定したのですから、必ずそれを遵守すべきです。プロセスから逸脱したり、データセキュリティプロトコルの実装など、重要なステップの 1 つを実施しなかったりすると、移行の失敗につながる可能性があります。また、移行を進めながら文書化することは、重要な学習や今後の移行で避けるべき問題を浮き彫りにするのに役立ちます。
5. テストと検証の継続
データを移行する際には、監視とテストを継続する必要があります。これにより、品質の問題やギャップ、重複がなく、適切に移行されていることを確認できます。トリクル方式を採用している場合は、旧システムのダウンタイムなどの問題を迅速に特定できます。移行がガイドラインに従って実行されたことを確認し、新しいホームでデータを監査して、使用できる状態であることを検証します。
Databricks でデータ移行を確実に実行
データ移行は一大事業であるため、意図したとおりに機能し、ビジネスの中断や予算の浪費を招かないことを確信する必要があります。
Databricks の専門家によるサポートがあれば、データを安全かつ確実に移行できます。レイクハウスアーキテクチャを基盤に構築された Databricks データインテリジェンスプラットフォームは、段階的なエンドツーエンドプロセスを使用して、レガシーデータプラットフォームからの移行を支援しま
アプリケーション、ストレージシステム、クラウドのいずれからデータを移行する場合でも、このプロセスはコストを理解するのに役立つ予測可能なモデルを提供します。Databricks は、自動化ツール、技術ガイダンス、パートナーソリューション、プロフェッショナルサービスを提供し、リスクを排除して価値を迅速に実現するお手伝いをします。
エンタープライズデータウェアハウスから Databricks にデータを移行すれば、全てのデータ、分析、AI のワークロードを単一の統合データプラットフォーム上で実行し、ビジネスの進化に合わせて迅速に拡張できます。
データ移行に関する FAQ
データ移行の 2 つのタイプとは?
データ移行には、ビッグバン方式とトリクル方式があります。ビッグバン移行は、一度の作業で全てのデータを移行するもので、時間とコストを節約できますが、システムのダウンタイムと高いリスクを伴います。トリクルダウン移行は段階的なアプローチで、旧システムを並行して稼働させながら、一定期間をかけて少しずつデータを移行します。より複雑でコストもかかりますが、障害のリスクは少なくなります。
データ移行はどのように行われるのですか?
データ移行には、ストレージ、データベース、アプリケーション、クラウド環境間のデータ移動が含まれます。場合によっては、ビジネスプロセスも移行します。どのタイプの移行を行うにしても、まずビッグバンかトリクルアプローチのどちらかを選択します。次に、データを移行するターゲットシステムを設 定し、データ自体の品質を評価します。
次の段階は、予算と期間を含む移行計画を作成することです。実際に移行を行う前に、テストランを行い、潜在的な問題がないかをチェックします。プロセス全体を通してテストと検証を継続し、旧システムを廃止する前に、データがターゲット環境に安全に到着したことを確認する必要があります。
データ移行とデータ変換の違いは何ですか?
この 2 つの用語はしばしば混同されますが、2 つの異なるものです。データ移行とは、デジタル情報をある場所から別の場所に移すことです。データ変換を含むこともありますが、必ずしもその必要はありません。
データ変換とは、データを新しいフォーマットに変換することです。変換されたデータは新しいアプリケーションに移行されるかもしれませんが、必ずしも新しいデータセンター、システム、環境に移行されるとは限りません。変換は基本的にデータ移行のオプション要素です。