Articles by Matei Zaharia - Databricks ブログ

ページ 3

Apache Spark Structured Streamingでレイテンシが1秒未満になりました

May 15, 2023 Jerry Peng、Pranav Anand、Sourav Gulati、Karthik Ramasamy、Michael Armbrust、Matei Zaharia による投稿 in エンジニアリングのブログ

Original: Latency goes subsecond in Apache Spark Structured Streaming 翻訳: saki.kitaoka Apache Spark Structured Streaming は、オープンソースのストリーム処理プラットフォームの代表格です。 the Databricks Lakehouse Platform のストリーミングを支える中核技術でもあり、バッチ処理とストリーム処理のための統一APIを提供しています。ストリーミングの採用が急速に進む中、多様なアプリケーションがストリーミングを活用してリアルタイムな意思決定を行いたいと考えています。これらのアプリケーションのうち、特に運用型のアプリケーションでは、より低いレイテンシーが要求されます。Sparkの設計は、高いスループットと使いやすさを低コストで実現する一方で、サブセカンドレイテンシーに最適化されていません。本ブログでは、Structured Streamingの固有の処理レイテンシーを低減す

ようこそOkera： AIを中心としたアプローチでガバナンスを実現する

May 2, 2023 Reynold Xin（レイノルド・シン）、Ali Ghodsi、Matei Zaharia、Patrick Wendell（パトリック・ウェンデル）、ジョナサン・ケラー、サチン・タクール、エリカ・エーリによる投稿 in Databricks ブログ

Original: Welcome Okera: Adopting an AI-centric approach to governance 翻訳: junichi.maruyama Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近の Dolly 2.0 の導入以来、すべてのお客様が、AIと大規模言語モデル（LLM）の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その

edXの新しい専門家主導の大規模言語モデル（LLMs）コースに登録する

April 30, 2023 Matei Zaharia、Patrick Wendell（パトリック・ウェンデル）、ロチャナ・ゴラニ、Brooke Wenig、ジョセフ・ブラッドリー、Chengyin Eng、Sam Raymond による投稿 in ニュース

Original : Enroll in our New Expert-Led Large Language Models (LLMs) Courses on edX 翻訳： junichi.maruyama edXの入門コースに今すぐ登録する！コースは2023年夏開始予定です edXの新しい大規模言語モデルコース Large Language Model (LLM)アプリケーションが無数の産業を破壊する中、生成AIは重要な基盤技術になりつつある。LLMベースのアプリケーションの需要は急増しており、それを構築できるエンジニアの需要も高まっています。今日、私たちは新しい...

Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

April 12, 2023 Mike Conover、Matt Hayes、Ankit Mathur、謝建偉、Jun Wan、サム・シャー、Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia、Reynold Xin（レイノルド・シン）による投稿 in Databricks ブログ

Original Post： Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM 翻訳： Takaaki Yayoi 2週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)である Dolly をリリースしました。本日、研究と商用利用にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMである Dolly 2.0 をリリースします。...

Dolly：オープンなモデルで ChatGPT の魔法を民主化

March 24, 2023 Mike Conover、Matt Hayes、Ankit Mathur、Xiangrui Meng、謝建偉、Jun Wan、Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia による投稿 in Databricks ブログ

概要 Databricks では、従来のオープンソースの大規模言語モデル（LLM）を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...

レイクハウス用データクリーンルームの紹介

June 28, 2022 Matei Zaharia、Itai Weiss、Steve Mahoney、サチン・タクール、ダン・モリス、ジェイ・バンカリアによる投稿 in プラットフォームブログ

翻訳: Masahiko Kitamura オリジナル記事： Introducing Data Clean Rooms for the Lakehouse Lakehouseのデータクリーンルームを発表することで、企業はプライバシーを保護した方法で、顧客やパートナーとあらゆるクラウド上で簡単にコラボレーションできるようになります。データ・クリーン・ルームの参加者は、データのプライバシーを維持しながら、既存のデータを共有、結合し、データ上でPython、R、SQL、Java、Scalaなどあらゆる言語で複雑なワークロードを実行することができます。外部データの需要がかつてないほど高まる中、組織はデータ主導のイノベーションを促進するため、データを安全に交換し、外部データを利用する方法を模索している。歴史的に、組織はデータ共有ソリューションを活用してパートナーとデータを共有し、データのプライバシーを守るために相互信頼に依存してきた。しかし、一度共有されたデータの管理は放棄され、さまざまなプラットフォームでデータがパート

Databricks と同等の価格性能を持つという Snowflake の主張に対する反論

November 16, 2021 モスタファ・モクタール、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in Databricks ブログ

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、データウェアハウスの公式世界記録を更新したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとしてオンラインで公開されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター（BSC）によるベンチマークテストの結果を共有し、Databricks SQL が競合...

データレイクハウスに関する FAQ

August 30, 2021 Michael Armbrust、Bharath Gowda、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォームブログ

FAQ （よくある質問）データレイクハウスとは？データレイクとは？データウェアハウスとは？データレイクハウスとデータウェアハウスの違いは何ですか？データレイクハウスとデータレイクの違いは何ですか？データアナリストは容易にデータレイクハウスを利用できますか？データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。データレイクハウスはどのようなデータガバナンス機能をサポートしていますか？データレイクハウスは一元化する必要がありますか？それともデータメッシュに分散できますか？データメッシュとデータレイクハウスとの関係は？データレイクハウスとは？データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能（AI）やビジネスインテリジェンス（BI）を直接実行できるアーキテクチャです。現在、企業ではデータの大部分をデータレイクに格納しています。データレイクは、あらゆる種類のデータ（構造化、非構造化を問わない）を管理し、どんな処理ツールでも実行

Apache Spark 3.0 概要｜Python API の強化・PySpark API の拡充など新機能搭載

June 18, 2020 Matei Zaharia、Reynold Xin（レイノルド・シン）、Xiao Li、Wenchen Fan、Yin Huai による投稿 in 製品

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...

データレイクとデータウェアハウスとは？それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

January 30, 2020 Ben Lorica、Michael Armbrust、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォームブログ

Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「データレイクハウス」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス（DWH: Data Warehouse）、データレイク（Data Lake）それぞれと比較して優れている点について解説します。データウェアハウス（DWH）とはデータウェアハウス（DWH）とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI（ビジネスインテリジェンス）アプリケーションにおいて広く利用されてきており、これには長い歴史があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処理が可能なシステムがもたらされました。しかし、データウェアハウスには、エクセルで作成されたような構造化データ（あらかじ