エンジニアリングのブログ

ページ 9

構造化ストリーミングにおける複数のステートフルオペレーター

August 6, 2023 Angela Chu、イム・ジョンテクによる投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse をストリーミングに最適なプラットフォームとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ

MLflow AI Gatewayの発表

July 25, 2023 Arpit Jasapara、ベン・ウィルソン、コーリー・ズマール、Harutaka Kawamura、ミンギュ・リー、ウラジミール・コロフスキー、Zhe Wang による投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link 大規模言語モデル（LLM）は、SQLウェアハウスに保存されたテキストデータのセンチメント分析から、製品に関するニュアンスの異なる質問に回答するリアルタイムのチャットボットの導入まで、ビジネス価値を提供する幅広い潜在的なユースケースを解き放ちます。しかし、これらのアプリケーションのために強力なSaaSやオープンソースのLLMへのアクセスを民主化するには、セキュリティ、コスト、データ関連のさまざまな課題が伴います。例えば、企業全体で SaaS LLM API トークンを効果的に管理するという具体的な課題を考えてみよう：チームがAPIトークンをプレーンテキストとして通信に貼り付けることによるセキュリティの問題共有キーがアプリケーションのクラッシュやレート制限の乱用によるコストのピークにつながるというコストの問題各チームがガードレールなしで独自のAPIトークンを管理することによるガバナンスの問題これらの課題は、組織がイノベーシ

Project Lightspeed Update - Apache Spark Structured Streamingの高度化に向けて

June 29, 2023 Karthik Ramasamy、Michael Armbrust、Matei Zaharia、Reynold Xin（レイノルド・シン）、Praveen Gattu、Ray Zhu、Shrikanth Shankar、Awez Syed、サミール・パランジパイ、フランク・ムンツ、マット・ジョーンズによる投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link このブログポストでは、1年前にProject Lightspeedを発表してからの Spark Structured Streaming の進歩について、パフォーマンスの向上からエコシステムの拡張、そしてそれ以降についてレビューします。具体的なイノベーションについて説明する前に、そもそも私たちが Project Lightspeed の必要性に至った背景を少しおさらいしましょう。本記事の背景ストリーム処理は、インスタントな洞察とリアルタイムのフィードバックを得るために、企業にとって重要なニーズです。Apache Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、開発者コミュニティにより、長年にわたって最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織全体に広く採用されており、 Delta Live Tables...

新しいUniversal Format と Liquid Clusteringを備えたDelta Lake 3.0の発表

June 29, 2023 Ryan Johnson、Michael Armbrust、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link Linux Foundation オープンソース Delta Lake Project, の次のメジャーリリースである Delta Lake 3.0 を発表できることを嬉しく思います。( preview 中) このリリースに対する Delta Lake コミュニティの貴重な貢献に心から感謝いたします。...

Apache Sparkのための新しいプログラミング言語としての「英語」

June 29, 2023 Gengliang Wang、Xiangrui Meng、Reynold Xin（レイノルド・シン）、アリソン・ワン、アマンダ・リュー、Denny Lee による投稿 in オープンソース

翻訳: Masahiko Kitamura オリジナル記事： Introducing English as the New Programming Language for Apache Spark はじめに私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します！動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され

集まれ！Legendary Heroes of DATA + AI !! Vol 4　

June 28, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 4として、株式会社ナレッジコミュニケーション小山翼様をご紹介します。 —- 以前にご紹介したLegendary Heroes of...

UnityカタログにLakehouseフェデレーション機能を導入

June 28, 2023 Matei Zaharia、アンドリュー・リー、Can Efeoglu、Cyrielle Simeone、サチン・タクールによる投稿 in プラットフォーム

翻訳: Masahiko Kitamura オリジナル記事: Introducing Lakehouse Federation Capabilities in Unity Catalog データチームは、データの断片化、データの統合にかかる時間とコスト、多数のシステムにわたるデータガバナンスの管理の難しさなどが主な原因で、適切なデータに素早くアクセスするために多くの課題に直面しています。そのため、本日 Data+AI Summit で、組織が統一されたガバナンスを備えた、拡張性とパフォーマンスの高いデータメッシュアーキテクチャを構築できるUnity CatalogのLakehouse Federation機能を発表できることを嬉しく思います。 Unity Catalog は、データとAIのための統合ガバナンスソリューションを提供します。Unity CatalogのLakehouseフェデレーション機能により、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure...

Delta Live Tablesを用いたサイバーセキュリティのレイクハウス向けETLパイプラインの構築

June 7, 2023 Silvio Fiorito による投稿 in データエンジニアリング

翻訳: Masahiko Kitamura オリジナル記事: Building ETL pipelines for the cybersecurity lakehouse with Delta Live Tables Databricksはこのほど、データエンジニア、データサイエンティスト、アナリストが、複雑なインフラを管理することなく、あらゆるクラウド上で信頼性の高いデータ、分析、MLワークフローを構築できるようにする Workflows を発表しました。Workflowsでは、 Delta Live Tables を使用して、インジェストやリネージを含む自動管理されたETLパイプラインを構築することができます。ワークフローとDelta Live...

Apache ParquetデータレイクをDelta Lakeにシームレスに移行する

June 7, 2023 ディパンカル・クシャリ、Uday Satapathy による投稿 in エンジニアリングのブログ

Original: Seamlessly Migrate Your Apache Parquet Data Lake to Delta Lake 翻訳: junichi.maruyama Apache Parquet は、今日のビッグデータの世界で最も人気のあるオープンソースのファイルフォーマットの1つです。列指向であるApache Parquetは、データの保存と検索を効率的に行うことができるため、過去10年間に多くの企業がデータレイクにおけるデータ保存の必須方法として採用しました。中には、Apache Parquetファイルを「データベーステーブル」として利用し、CRUD操作を行う企業もあります。しかし、Apache Parquetファイルは単なるデータファイルであり、トランザクションロギング、統計収集、インデックス作成機能を持たないため、ACIDに準拠したデータベース操作には適していません。このようなツールの構築は、膨大な数の開発チームが独自に開発し、それを維持する必要があるため、途方もない作業です。その結

構造化ストリーミングにおける適応的なクエリの実行

June 1, 2023 Steven Chen、MaryAnn Xue、イム・ジョンテクによる投稿 in エンジニアリングのブログ

Original: Adaptive Query Execution in Structured Streaming 翻訳: junichi.maruyama Databricks Runtimeでは、 Adaptive Query Execution (AQE) は、クエリ実行中にランタイム統計を使用してバッチクエリを継続的に再適正化するパフォーマンス機能です。Databricks Runtime 13.1以降、 ForeachBatch Sinkを使用するリアルタイムストリーミングクエリも、 Project Lightspeed の一環として、AQEを活用して動的再最適化を行います。...