何千人ものデータ アーキテクト、エンジニア、科学者がサンフランシスコのData + AI Summitに集まり、Fei Fei Li 氏や Yejin Choi 氏などの業界の著名人の話を聞き、カスタムLLMの構築からApache Spark™ 4 の準備まであらゆるセッションに出席し、 Databricksの最新情報を探り、最終的にはビジネス全体にデータ インテリジェンスを展開する取り組みを加速する方法を学びました。
サミットの一日一日が、既存のスキルを向上させ、新しいことに触れ、生成AI時代にビジネスを成功させるために必要な知識を得る機会を提供しました。 実際、多くの参加者にとって、参加したいすべてのセッションの時間を作ることが課題になります。
実際にセッションを見逃した方、または今バーチャルで参加する方、嬉しいことに、500 以上のセッション (および基調講演全体) をすべてオンデマンドで視聴できるようになりました。以下では、データ アーキテクト、データ エンジニア、データ サイエンティストにとって視聴する価値があると思われる特定のセッションをいくつか紹介します。
データアーキテクト
現在、アナリティクスとAIワークロードは、非常に多くの異なる環境に分 割されています。 データアーキテクトは、基盤となるインフラストラクチャを適切に管理することが不可能になります。 これは、多くの企業が統合を検討している理由の1つです。 これらのセッションでは、レイクハウスが、企業がデータ環境全体で適切なセキュリティとガバナンスを確保しながら、ビジネス全体でデータ インテリジェンスを活用するために必要な統合プラットフォームである理由を紹介します。
Delta Lake と Delta Kernel による DuckDB の融合
講演者: Nick Lanham
過去数年間で、Delta-rsは急速に成長しました。 そして、delta-kernel-rs を使用すると、Rust および Python ユーザーは接続をさらに簡単に作成できるようになりました。 このセッションでは、オープンソースの分析データベース DuckDB に Delta サポートを導入する方法について説明します。 サポートのしくみ、統合のアーキテクチャ、およびその過程で学んだ教訓について説明します。
Databricks 上の Delta Lake と UniForm の詳細
講演者: Joe Widen、Michelle Leon
こ れは、既存のデータレイクに信頼性、パフォーマンス、ガバナンス、品質をもたらす強力な OSS ストレージ レイヤーであるDelta Lakeのすべてを解説した初心者向けガイドです。 このセッションでは、ストリーミングとバッチの両方のユースケース向けに構築されている方法など、Delta Lake の概要を説明し、Delta Lake と Unity Catalog を組み合わせた場合のパワーを説明し、さまざまな分野における Delta Lake の革新的なユースケースを紹介します。 参加者は、Apache Iceberg や Apache Hudi などの他のレイクハウス形式で開発者が簡単に作業できるようにするツールである Delta UniForm についても学習します。
Spark Connect の依存関係管理: シンプル、分離、強力
講演者: Hyukjin Kwon、Akhil Gudesa
分散コンピューティング環境でホストされているアプリケーションの管理は困難な場合があります。 すべてのノードがコードを実行するために必要な環境を備えていることを確認し、ユーザーのコードの実際の場所を特定することは複雑なタスクであり、動的なサポートが必要な場合はさらに複雑になります。 このセッションでは、Spark Connect が分散コンピューティング環境の管理を簡素化する方法について説明します。 参加者は、実用的かつ包括的な例を通じて、Python と Scala アプリケーションの両方で柔軟かつシームレスな実行 を保証するカスタム分離環境を作成、パッケージ化、利用、更新する方法を学びます。
AWS Lambda と Delta Lake による高速、安価、簡単なデータ取り込み
講演者: R. Tyler Croy
Delta Rust の作成者の 1 人である R Tyler Cory と一緒に、AWS Lambda から Delta テーブルを操作する方法を学びましょう。 Delta Lake のネイティブ Python または Rust ライブラリを使用して、トランザクション ログの調査、更新の書き込み、テーブルのメンテナンスの実行、さらには AWS Lambda から数ミリ秒で Delta テーブルをクエリする方法を学習します。
Rust とDelta Lakeを使ってデータエンジニアリングをやってみましょう!
講演者: R. Tyler Croy
データエンジニアリングの将来はますます Rust 的になりそうです。 Delta Lake、データ フュージョン、および Arrow の基本的なクレートを採用することで、開発者は高性能かつ低コストの取り込みパイプライン、変換ジョブ、およびデータ クエリ アプリケーションを作成できます。 Rustを知らない? 大丈夫。 Delta Rust の共同作成者とともに、データエンジニアリング分野に関連する言語の基本概念を確認し、実際のデータの問題に Rust を適用するための基礎を身に付けます。
講演者: Simon Whiteley
企業はレイクハウス アーキテクチャのメリットを享受していますが、ゾーンを階層化していることについて多くの企業が後悔しています。 「シルバー」と「ゴールド」のような用語が何を意味するのか、誰も本当には知りません。 現実には、メダリオンアーキテクチャが常に最善の選択肢であるとは限りません。 このセッションでは、実際の例を使用して、いつ、どのように使用するかについて説明します。
データエンジニア
今日のビジネスでは、スピードが最も重要です。 リーダーは情報にすぐにアクセスしたいと考えています。 これにより、ネットワーキングETLパイプラインの管理と最適化を行う個人のタスクにさらなるプレッシャーがかかります。 これらのセッションは、データエンジニアがリアルタイム アナリティクスとAIの実現に役立ちます。
Delta Live Tablesの詳細: インテリジェントなデータパイプラインのベストプラクティス
講演者: Michael Armbrust、Paul Lappas
Delta Live Tables を最もよく知る人から、それをマスターする方法を学びましょう。 Spark SQL 、構造化ストリーミング、 Deltaオリジナル作成者である Michael Armbrust が、DLT の最新情報と今後の予定について参加者に説明します。 (ネタバレ注意: 大きなニュースがあります)
Delta Lake とその仲間による効果的なレイクハウス ストリーミング
講演者: Scott Haines、Ashok Singamaneni
このセッションでは、参加者はストリーミング レイクハウス アーキテクチャの真の力、大規模な成功を達成する方法、そしてさらに重要なことに、一貫性のあるデータ基盤を解き放ち、「ストレスのない」データ エコシステムを強化するための鍵となる Delta Lake について学びます。
見知らぬ人の勝利: Netflix での Spark のアップグレードと移 行の自動化
講演者: Holden Krau、Robert Merck
Apache Spark™ 4 が間もなく登場します。 では、最新かつ最高の Spark にアップグレードするには何が必要ですか? Netflix がアップグレードの大部分を自動化した方法と、その技術をデータ プラットフォームに活用する方法について説明します。 このセッションでは、Spark パイプラインを問題なくアップグレードする方法と、テストを信頼できない場合でも Spark パイプラインを検証する方法を学習します。
Apache Spark™向けの新しいPython データソース APIのご紹介
講演者: Allison Wang、Ryan Nienhuis
従来、カスタム データソースをSparkに統合するにはScalaを理解する必要があり、広大なPythonコミュニティにとって課題となっていました。 新しい API は、このプロセスを簡素化し、開発者が既存のPython の複雑さなしに API で直接カスタム データソースを実装できるようにします。このセッションでは、Python 開発者の読み取りおよび書き込み操作を大幅に容易にした理由と、その背後にあるコードについて説明します。
インクリメンタル チェンジデータキャプチャ: データに基づく旅
講演者: Christina Taylor
SaaSアプリケーション、リレーショナル データベース、イベント ストリームから集中型データレイクへの増分取り込みを反復する方法、CDC の役割、そしてDelta Lakeを使用して最終的にメンテナンスを合理化し、信頼性を向上させる方法について学習します。 参加者は、長期的なスチュワードシップと開発者の幸福を促進するアーキテクチャを設計するためのデータに基づいた考え方を持って立ち去ります
講演者: Xiao Li、Wenchen Fan
Apache Spark 4.0 の今後のリリースでは、機能が改良され、 統合分析エンジンによって開発者のエクスペリエンスが強化される大幅な機能強化が提供されます。 これは、専門家に今後の予定と準備方法を尋ねるチャンスです。
データサイエンティスト
生成AIは避けられません。 すべての企業は、LLMを開発して展開する方法を考え出しています。 AI と ML を実際に実 現している人にとって、これらのセッションは、生成 AI 戦略を改善および加速するための最新のテクニックを常に把握するのに役立ちます。
講演者: Sharon Zhou
企業は、既存のLLMを利用して、テクノロジーを差別化するための新しい知識を教えたいと考える企業が増えています。 このプロセスには、プロンプトや取得だけでなく、指示の微調整、コンテンツの微調整、事前トレーニングなども含まれます。 このセッションでは、LLM が学習できるデータについてあまりこだわりがなく、数十億の新しいドキュメントを簡単に取り込めるようにするオールインワン LLM スタックである Lamini について学習します。
MLOps と LLMOps の探究: アーキテクチャとベスト プラクティス
講演者: Joseph Bradley、Yinxi Zhang、Arpit Jasapara
このセッションでは、機械学習操作 (MLOps) と大規模言語モデル操作 (LLMOps) に関係するアーキテクチャについて詳しく説明します 。 参加者は、これらの分野を定義する主要なコンポーネントとワークフローを含む、MLOps と LLMOps の技術的な詳細と実用的なアプリケーションについて学習します。 そして、参加者は、自分のプロジェクトに効果的な MLOps と LLMOps を実装するための戦略を身に付けます。
講演者: Jonathan Frankle、Abhinav Venigalla
Databricks が社内でトレーニングした最先端のオープンソース基盤モデルである DBRX の構築の舞台裏を知りたいですか? 開発プロセス中に学んだツール、方法、および教訓について、構築した人々から話を聞きます。 参加者は、高品質の LLM をトレーニングするために必要なことを詳しく知り、Mixture of Experts アーキテクチャを選択した理由を理解し、同じツールとテクニックを使用して独自のカスタム モデルを構築する方法を学びます。
DBRX およびその他の Databricks 基盤モデルの紹介
講演者: Margaret Qian、Hagay Lupesko
このセッ ションでは、DBRX と Databricks で利用できるその他の基本モデルについて包括的に紹介します。 参加者は、これらのモデルを活用してデータ分析と機械学習プロジェクトを強化する方法について実践的なガイダンスを受けることができます。 また、受講者は、データドリブンの取り組みにおいてイノベーションと効率性を推進するために、Databricks の基礎モデルを効果的に活用する方法を明確に理解できるようになります。
階層型インテリジェンス: 生成AIと古典的な意思決定科学の融合
講演者: Danielle Heymann
このセッションでは、生成AI 、特にLLMが古典的な意思決定科学の方法論にどのように統合されるかを探ります。 参加者は、LLM がチャットボットを超えて最適化アルゴリズム、統計モデル、グラフ アナリティクス を強化し、意思決定科学に新たな息吹を吹き込み、戦略的な アナリティクス と意思決定を前進させる方法について学びます。 この階層化されたアプローチは、従来の方法に新たなエッジをもたらし、複雑な問題解決、微妙なデータインタラクション、解釈可能性の向上を可能にします。
講演者: Jerry Liu
RAG は、企業が既存の LLM を自社のデータに基づいてさらにカスタマイズできるようにする強力な手法です。ただし、特にユーザーがより大規模で複雑なデータソースに拡張する場合、RAG の構築は非常に困難です。RAG の有効性はデータの品質に左右されるため、開発者は複雑なドキュメントに対して RAG を正常に構築するために、データの解析、取り込み、取得方法を慎重に検討する必要があります。このセッションでは、このプロセス全体を詳細に説明します。
講演者: Jeanne Choo、Ngee Chia Tai
東南アジアは、シンガポール、ベトナム、タイ、インドネシアなど、世界で最も文化的に多様な地域の1つです。 人々は複数の言語を話し、中国、インド、西洋から文化的影響を受けています。 シンガポール政府が Databricks MosaicML と連携して、タイ語、インドネシア語、タミル語などの現地言語でトレーニングされたオープンソースの大規模言語モデル SEA-LION を構築した方法 について学びます。
講演者: David Talby、Veysel Kocaman
本番運用のための RAG LLMパイプラインのスケーリングと構築に関する短期集中コースを受講してください。現在のシステムでは、概念実証から本番運用への移行を効率的に処理することが困難です。このセッションでは、オープンソースSpark NLP ライブラリを使用してスケーリングの問題に対処する方法を説明します。
Data + AI Summit のすべてのセッションと基調講演はこちらでご覧ください。