メインコンテンツへジャンプ
ページ 1
Engineering blog

Delta Lake で機械学習の課題を解決

既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーである Delta Lake や機械学習の開発で使用される MLflow が話題に上る機会が増えています。しかし、多くのケースでは 2 つが別々の製品として取り上げられています。本ブログでは、機械学習の開発の際に起こりうるデータのバージョン管理や OOM エラーなどの課題において Delta Lake と MLflow の相乗効果に焦点を当て、堅牢なデータ基盤に基づく有用な機械学習結果を得るために Delta Lake をいかに活用すべきかについて解説します。 データサイエンティストであれば、機械学習のモデル作成のプロセスは既に整っており、MLflow を機械学習モデルの本番環境へのデプロイに活用したことがあるでしょう。MLflow には、実験を追跡できる機能や、モデルのプロモーションに活用できる MLflow モデルレジストリが備わっています。また、コードのバージョン、クラスタのセットアップ、データの場所などの追跡機能による再現