メインコンテンツへジャンプ

何千人ものデータ アーキテクト、エンジニア、科学者がサンフランシスコのData + AI Summitに集まり、Fei Fei Li 氏や Yejin Choi 氏などの業界の著名人の話を聞き、カスタムLLMの構築からApache Spark™ 4 の準備まであらゆるセッションに出席し、 Databricksの最新情報を探り、最終的にはビジネス全体にデータ インテリジェンスを展開する取り組みを加速する方法を学びました。

サミットの一日一日が、既存のスキルを向上させ、新しいことに触れ、生成AI時代にビジネスを成功させるために必要な知識を得る機会を提供しました。 実際、多くの参加者にとって、参加したいすべてのセッションの時間を作ることが課題になります。

実際にセッションを見逃した方、または今バーチャルで参加する方、嬉しいことに、500 以上のセッション (および基調講演全体) をすべてオンデマンド視聴できるようになりました。以下では、データ アーキテクト、データ エンジニア、データ サイエンティストにとって視聴する価値があると思われる特定のセッションをいくつか紹介します。

データアーキテクト

現在、アナリティクスとAIワークロードは、非常に多くの異なる環境に分割されています。 データアーキテクトは、基盤となるインフラストラクチャを適切に管理することが不可能になります。 これは、多くの企業が統合を検討している理由の1つです。 これらのセッションでは、レイクハウスが、企業がデータ環境全体で適切なセキュリティとガバナンスを確保しながら、ビジネス全体でデータ インテリジェンスを活用するために必要な統合プラットフォームである理由を紹介します。

Delta Lake と Delta Kernel による DuckDB の融合

講演者: Nick Lanham

過去数年間で、Delta-rsは急速に成長しました。 そして、delta-kernel-rs を使用すると、Rust および Python ユーザーは接続をさらに簡単に作成できるようになりました。 このセッションでは、オープンソースの分析データベース DuckDB に Delta サポートを導入する方法について説明します。 サポートのしくみ、統合のアーキテクチャ、およびその過程で学んだ教訓について説明します。

Databricks 上の Delta Lake と UniForm の詳細

講演者: Joe Widen、Michelle Leon

これは、既存のデータレイクに信頼性、パフォーマンス、ガバナンス、品質をもたらす強力な OSS ストレージ レイヤーであるDelta Lakeのすべてを解説した初心者向けガイドです。 このセッションでは、ストリーミングとバッチの両方のユースケース向けに構築されている方法など、Delta Lake の概要を説明し、Delta Lake と Unity Catalog を組み合わせた場合のパワーを説明し、さまざまな分野における Delta Lake の革新的なユースケースを紹介します。 参加者は、Apache Iceberg や Apache Hudi などの他のレイクハウス形式で開発者が簡単に作業できるようにするツールである Delta UniForm についても学習します。

Spark Connect の依存関係管理: シンプル、分離、強力

講演者: Hyukjin Kwon、Akhil Gudesa

分散コンピューティング環境でホストされているアプリケーションの管理は困難な場合があります。 すべてのノードがコードを実行するために必要な環境を備えていることを確認し、ユーザーのコードの実際の場所を特定することは複雑なタスクであり、動的なサポートが必要な場合はさらに複雑になります。 このセッションでは、Spark Connect が分散コンピューティング環境の管理を簡素化する方法について説明します。 参加者は、実用的かつ包括的な例を通じて、Python と Scala アプリケーションの両方で柔軟かつシームレスな実行を保証するカスタム分離環境を作成、パッケージ化、利用、更新する方法を学びます。

AWS Lambda と Delta Lake による高速、安価、簡単なデータ取り込み

講演者: R. Tyler Croy

Delta Rust の作成者の 1 人である R Tyler Cory と一緒に、AWS Lambda から Delta テーブルを操作する方法を学びましょう。 Delta Lake のネイティブ Python または Rust ライブラリを使用して、トランザクション ログの調査、更新の書き込み、テーブルのメンテナンスの実行、さらには AWS Lambda から数ミリ秒で Delta テーブルをクエリする方法を学習します。

Rust とDelta Lakeを使ってデータエンジニアリングをやってみましょう!

講演者: R. Tyler Croy

データエンジニアリングの将来はますます Rust 的になりそうです。 Delta Lake、データ フュージョン、および Arrow の基本的なクレートを採用することで、開発者は高性能かつ低コストの取り込みパイプライン、変換ジョブ、およびデータ クエリ アプリケーションを作成できます。 Rustを知らない? 大丈夫。 Delta Rust の共同作成者とともに、データエンジニアリング分野に関連する言語の基本概念を確認し、実際のデータの問題に Rust を適用するための基礎を身に付けます。

メダリオンアーキテクチャの何が問題なのか?

講演者: Simon Whiteley

企業はレイクハウス アーキテクチャのメリットを享受していますが、ゾーンを階層化していることについて多くの企業が後悔しています。 「シルバー」と「ゴールド」のような用語が何を意味するのか、誰も本当には知りません。 現実には、メダリオンアーキテクチャが常に最善の選択肢であるとは限りません。 このセッションでは、実際の例を使用して、いつ、どのように使用するかについて説明します。

データエンジニア

今日のビジネスでは、スピードが最も重要です。 リーダーは情報にすぐにアクセスしたいと考えています。 これにより、ネットワーキングETLパイプラインの管理と最適化を行う個人のタスクにさらなるプレッシャーがかかります。 これらのセッションは、データエンジニアがリアルタイム アナリティクスとAIの実現に役立ちます。

Delta Live Tablesの詳細: インテリジェントなデータパイプラインのベストプラクティス

講演者: Michael Armbrust、Paul Lappas

Delta Live Tables を最もよく知る人から、それをマスターする方法を学びましょう。 Spark SQL 、構造化ストリーミング、 Deltaオリジナル作成者である Michael Armbrust が、DLT の最新情報と今後の予定について参加者に説明します。 (ネタバレ注意: 大きなニュースがあります)

Delta Lake とその仲間による効果的なレイクハウス ストリーミング

講演者: Scott Haines、Ashok Singamaneni

このセッションでは、参加者はストリーミング レイクハウス アーキテクチャの真の力、大規模な成功を達成する方法、そしてさらに重要なことに、一貫性のあるデータ基盤を解き放ち、「ストレスのない」データ エコシステムを強化するための鍵となる Delta Lake について学びます。

見知らぬ人の勝利: Netflix での Spark のアップグレードと移行の自動化

講演者: Holden Krau、Robert Merck

Apache Spark™ 4 が間もなく登場します。 では、最新かつ最高の Spark にアップグレードするには何が必要ですか? Netflix がアップグレードの大部分を自動化した方法と、その技術をデータ プラットフォームに活用する方法について説明します。 このセッションでは、Spark パイプラインを問題なくアップグレードする方法と、テストを信頼できない場合でも Spark パイプラインを検証する方法を学習します。

Apache Spark™向けの新しいPython データソース APIのご紹介

講演者: Allison Wang、Ryan Nienhuis

従来、カスタム データソースをSparkに統合するにはScalaを理解する必要があり、広大なPythonコミュニティにとって課題となっていました。 新しい API は、このプロセスを簡素化し、開発者が既存のPython の複雑さなしに API で直接カスタム データソースを実装できるようにします。このセッションでは、Python 開発者の読み取りおよび書き込み操作を大幅に容易にした理由と、その背後にあるコードについて説明します。

インクリメンタル チェンジデータキャプチャ: データに基づく旅

講演者: Christina Taylor

SaaSアプリケーション、リレーショナル データベース、イベント ストリームから集中型データレイクへの増分取り込みを反復する方法、CDC の役割、そしてDelta Lakeを使用して最終的にメンテナンスを合理化し、信頼性を向上させる方法について学習します。 参加者は、長期的なスチュワードシップと開発者の幸福を促進するアーキテクチャを設計するためのデータに基づいた考え方を持って立ち去ります

今後のApache Spark™ 4.0の今後の展開

講演者: Xiao Li、Wenchen Fan

Apache Spark 4.0 の今後のリリースでは、機能が改良され、 統合分析エンジンによって開発者のエクスペリエンスが強化される大幅な機能強化が提供されます。 これは、専門家に今後の予定と準備方法を尋ねるチャンスです。

データサイエンティスト

生成AIは避けられません。 すべての企業は、LLMを開発して展開する方法を考え出しています。 AI と ML を実際に実現している人にとって、これらのセッションは、生成 AI 戦略を改善および加速するための最新のテクニックを常に把握するのに役立ちます。

ソフトウェア 2.0: 新しい知識を備えた LLM の出荷

講演者: Sharon Zhou

企業は、既存のLLMを利用して、テクノロジーを差別化するための新しい知識を教えたいと考える企業が増えています。 このプロセスには、プロンプトや取得だけでなく、指示の微調整、コンテンツの微調整、事前トレーニングなども含まれます。 このセッションでは、LLM が学習できるデータについてあまりこだわりがなく、数十億の新しいドキュメントを簡単に取り込めるようにするオールインワン LLM スタックである Lamini について学習します。

MLOps と LLMOps の探究: アーキテクチャとベスト プラクティス

講演者: Joseph Bradley、Yinxi Zhang、Arpit Jasapara

このセッションでは、機械学習操作 (MLOps) と大規模言語モデル操作 (LLMOps) に関係するアーキテクチャについて詳しく説明します。 参加者は、これらの分野を定義する主要なコンポーネントとワークフローを含む、MLOps と LLMOps の技術的な詳細と実用的なアプリケーションについて学習します。 そして、参加者は、自分のプロジェクトに効果的な MLOps と LLMOps を実装するための戦略を身に付けます。

DBRX の最前線: 最先端のオープンソース モデルの構築

講演者: Jonathan Frankle、Abhinav Venigalla

Databricks が社内でトレーニングした最先端のオープンソース基盤モデルである DBRX の構築の舞台裏を知りたいですか? 開発プロセス中に学んだツール、方法、および教訓について、構築した人々から話を聞きます。 参加者は、高品質の LLM をトレーニングするために必要なことを詳しく知り、Mixture of Experts アーキテクチャを選択した理由を理解し、同じツールとテクニックを使用して独自のカスタム モデルを構築する方法を学びます。

DBRX およびその他の Databricks 基盤モデルの紹介

講演者: Margaret Qian、Hagay Lupesko

このセッションでは、DBRX と Databricks で利用できるその他の基本モデルについて包括的に紹介します。 参加者は、これらのモデルを活用してデータ分析と機械学習プロジェクトを強化する方法について実践的なガイダンスを受けることができます。 また、受講者は、データドリブンの取り組みにおいてイノベーションと効率性を推進するために、Databricks の基礎モデルを効果的に活用する方法を明確に理解できるようになります。

階層型インテリジェンス: 生成AIと古典的な意思決定科学の融合

講演者: Danielle Heymann

このセッションでは、生成AI 、特にLLMが古典的な意思決定科学の方法論にどのように統合されるかを探ります。 参加者は、LLM がチャットボットを超えて最適化アルゴリズム、統計モデル、グラフ アナリティクス を強化し、意思決定科学に新たな息吹を吹き込み、戦略的な アナリティクス と意思決定を前進させる方法について学びます。 この階層化されたアプローチは、従来の方法に新たなエッジをもたらし、複雑な問題解決、微妙なデータインタラクション、解釈可能性の向上を可能にします。

複雑なドキュメント上で本番運用 RAG を構築する

講演者: Jerry Liu

RAG は、企業が既存の LLM を自社のデータに基づいてさらにカスタマイズできるようにする強力な手法です。ただし、特にユーザーがより大規模で複雑なデータソースに拡張する場合、RAG の構築は非常に困難です。RAG の有効性はデータの品質に左右されるため、開発者は複雑なドキュメントに対して RAG を正常に構築するために、データの解析、取り込み、取得方法を慎重に検討する必要があります。このセッションでは、このプロセス全体を詳細に説明します。

SEA-LION:東南アジアの多様な言語をLLMで表現する

講演者: Jeanne Choo、Ngee Chia Tai

東南アジアは、シンガポール、ベトナム、タイ、インドネシアなど、世界で最も文化的に多様な地域の1つです。 人々は複数の言語を話し、中国、インド、西洋から文化的影響を受けています。 シンガポール政府が Databricks MosaicML と連携して、タイ語、インドネシア語、タミル語などの現地言語でトレーニングされたオープンソースの大規模言語モデル SEA-LION を構築した方法について学びます。

Spark NLP における最先端の大規模検索拡張生成

講演者: David Talby、Veysel Kocaman

本番運用のための RAG LLMパイプラインのスケーリングと構築に関する短期集中コースを受講してください。現在のシステムでは、概念実証から本番運用への移行を効率的に処理することが困難です。このセッションでは、オープンソースSpark NLP ライブラリを使用してスケーリングの問題に対処する方法を説明します。 

Data + AI Summit のすべてのセッションと基調講演はこちらご覧ください

 

Databricks 無料トライアル

関連記事

AI/BIの発表:リアルデータに基づくインテリジェント解析の時代へ!

Translation Review by saki.kitaoka 本日、私たちは Databricks AI/BI の発表を大変楽しみにしています。これは、データの意味を深く理解し、誰でもデータを自ら分析できるように設計された新しいビジネスインテリジェンス製品です。AI/BIは、ETLパイプライン、系統、その他のクエリなど、Databricksプラットフォーム全体のデータのライフサイクルからインサイトを引き出す 複合AIシステム に基づいて構築されています。このAI/BIは、次の2つの補完的な製品体験を提供します。 AI/BIダッシュボード: AI駆動のローコードダッシュボードソリューションで、従来のBI機能をすべて備えており、固定されたビジネス質問に答えるために設計されています。 Genie: 人間のフィードバックに基づいてデータとその意味を継続的に学習し、より広範なビジネス質問に答えることができる会話型インターフェースです。データチームによって指定されたクエリパターンについては、確認済みの回答も提供します

Unity Catalogのオープンソース化を発表します!

Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン

Databricks LakeFlowの登場: データエンジニアリングのための統一されたインテリジェントソリューション

Translation Review by saki.kitaoka 本日、私たちはDatabricks LakeFlowを発表します。これは、プロダクションデータパイプラインを構築および運用するために必要なすべてを含む新しいソリューションです。MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Microsoft Dynamics、NetSuite、Workday、ServiceNow、Google Analyticsなどの企業アプリケーション向けの新しいネイティブで高スケーラビリティのコネクタが含まれています。ユーザーは標準SQLおよびPythonを使用して、バッチおよびストリーミングでデータを変換できます。 さらに、Apache Spark向けのリアルタイムモードを発表し、従来のマイクロバッチよりもはるかに高速なレイテンシでストリーム処理が可能になります。最後に、CI/CDを使用してワークフローをオーケストレーションおよびモニタリングし、本番環境にデプ
Databricks ブログ一覧へ