eBook

データの可能性を最大化

Apache Spark™ と Delta Lake はあらゆるデータを単一のプラットフォームに統合して BI/ML に供給します。

Apache Spark 3.x は、使いやすさ、高性能、Spark コンポーネント全体でのスマートな API 統合を実現しています。データ処理においては、Delta Lake が、ACIDトランザクション、スキーマの適用、DML コマンド、タイムトラベルなどの機能によって、データレイクの信頼性と性能を高めます。

この eBook では、Apache Spark と Delta Lake を学ぶための技術的なコンテンツを順を追って解説しています。初心者の方も、既に開発者としての経験がある方も、これらのオープンソースプロジェクトのメリットを理解していただける内容となっています。

この eBook では、次の事柄を中心に取り上げています。

  1. Apache Spark と Delta Lake を選ぶ理由
  2. Apache Spark のコンセプトとキーワード
  3. 高度な Apache Spark の内部構造とコア
  4. DataFrame、データセット、Spark SQL の要点
  5. GraphFrames によるグラフ処理
  6. 構造化ストリーミングによる継続的アプリケーション
  7. 人間のための機械学習
  8. 信頼性の高いデータレイクとデータパイプライン