Articles by Reynold Xin（レイノルド・シン）

ページ 2

Databricks + MosaicML

July 18, 2023 Matei Zaharia、Patrick Wendell（パトリック・ウェンデル）、Reynold Xin（レイノルド・シン）、Ali Ghodsi による投稿 in Databricks ブログ

翻訳：Junichi Maruyama. - Original Blog Link 本日、私たちはMosaicMLの買収を完了したことをお伝えできることを嬉しく思います。MosaicMLは、企業向けにジェネレーティブAIモデルを作成し、カスタマイズするための先進的なプラットフォームです。Databricksの創業以来、私たちのミッションは、あらゆる企業のためにデータとAIを民主化することでした。MosaicMLと共に、ジェネレーティブAIアプリケーションのトレーニング、カスタマイズ、デプロイのためのクラス最高のエクスペリエンスを提供する予定です。私たちはMosaicMLチームと協力し、ジェネレーティブAIを企業の主流にするために必要な3つの最も重要な開発を加速させます：モデル能力の迅速な民主化：私たちは、すべての企業がモデルを広く利用できる未来を確信しています。あらゆるテクノロジーの民主化には、価格の引き下げとアクセスの向上が必要です。MosaicMLチームは、大規模な言語モデルのトレーニングとカスタマイズ

Project Lightspeed Update - Apache Spark Structured Streamingの高度化に向けて

June 29, 2023 Karthik Ramasamy、Michael Armbrust、Matei Zaharia、Reynold Xin（レイノルド・シン）、Praveen Gattu、Ray Zhu、Shrikanth Shankar、Awez Syed、サミール・パランジパイ、フランク・ムンツ、マット・ジョーンズによる投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link このブログポストでは、1年前にProject Lightspeedを発表してからの Spark Structured Streaming の進歩について、パフォーマンスの向上からエコシステムの拡張、そしてそれ以降についてレビューします。具体的なイノベーションについて説明する前に、そもそも私たちが Project Lightspeed の必要性に至った背景を少しおさらいしましょう。本記事の背景ストリーム処理は、インスタントな洞察とリアルタイムのフィードバックを得るために、企業にとって重要なニーズです。Apache Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、開発者コミュニティにより、長年にわたって最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織全体に広く採用されており、 Delta Live Tables...

新しいUniversal Format と Liquid Clusteringを備えたDelta Lake 3.0の発表

June 29, 2023 Ryan Johnson、Michael Armbrust、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link Linux Foundation オープンソース Delta Lake Project, の次のメジャーリリースである Delta Lake 3.0 を発表できることを嬉しく思います。( preview 中) このリリースに対する Delta Lake コミュニティの貴重な貢献に心から感謝いたします。...

Apache Sparkのための新しいプログラミング言語としての「英語」

June 29, 2023 Gengliang Wang、Xiangrui Meng、Reynold Xin（レイノルド・シン）、アリソン・ワン、アマンダ・リュー、Denny Lee による投稿 in オープンソース

翻訳: Masahiko Kitamura オリジナル記事： Introducing English as the New Programming Language for Apache Spark はじめに私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します！動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され

Welcome Rubicon to Databricks: これからのAIストレージとサービングシステムにむけて

June 13, 2023 Reynold Xin（レイノルド・シン）による投稿 in お知らせ

Original: Welcome Rubicon to Databricks: The Future of AI Storage and Serving Systems 翻訳: saki.kitaoka RubiconのチームがDatabricksに参加することを発表でき、大変嬉しく思っています。大規模インフラ構築者であるAkhil GuptaとSergei Tsarevによって設立されたRubiconは、AIのためのストレージシステムの構築に取り組むスタートアップです。私たちは10年以上前に、データとAIアプリケーションの構築を劇的に容易にすることを目標に、Databricksを会社としてスタートしました。私たちはすぐに、AIアプリケーションに必要なデータを処理するには、企業のデータウェアハウスなどの従来のストレージシステムでは不十分であることに気づきました。そこで、データウェアハウスとデータレイクストレージの長所を組み合わせたレイクハウスのコアストレージ基盤であるDelta Lakeを構築しました。 LL

ようこそOkera： AIを中心としたアプローチでガバナンスを実現する

May 2, 2023 Reynold Xin（レイノルド・シン）、Ali Ghodsi、Matei Zaharia、Patrick Wendell（パトリック・ウェンデル）、ジョナサン・ケラー、サチン・タクール、エリカ・エーリによる投稿 in Databricks ブログ

Original: Welcome Okera: Adopting an AI-centric approach to governance 翻訳: junichi.maruyama Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近の Dolly 2.0 の導入以来、すべてのお客様が、AIと大規模言語モデル（LLM）の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その

Spark Connect がApache Spark 3.4で利用可能になりました

April 17, 2023 アラン・フォルティング、Hyukjin Kwon、Xiao Li、ヘルマン・ファン・ヘーベル、ステファニア・レオーネ、マーティン・グルンド、Reynold Xin（レイノルド・シン）、Kris Mo による投稿 in エンジニアリングのブログ

Original Blog : Spark Connect Available in Apache Spark 3.4 翻訳： junichi.maruyama 昨年、Data and AI SummitでSpark Connectが紹介されました。最近リリースされたApache SparkTM 3.4の一部として、Spark Connectは一般的に利用できるようになりました。また、最近Databricks ConnectをSpark...

Apache Spark™ 3.4 for Databricks Runtime 13.0の紹介

April 13, 2023 Xinrong Meng、ダニエル・テネドリオ、マーティン・グルンド、アラン・フォルティング、Hyukjin Kwon、ヘルマン・ファン・ヘーベル、Wenchen Fan、Ying Xiong、イム・ジョンテク、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Original Blog : Introducing Apache Spark™ 3.4 for Databricks Runtime 13.0 　 (翻訳： junichi.maruyama ) 本日、 Databricks Runtime 13.0 の一部として、Databricks上で Apache Spark™ 3.4...

Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

April 12, 2023 Mike Conover、Matt Hayes、Ankit Mathur、謝建偉、Jun Wan、サム・シャー、Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia、Reynold Xin（レイノルド・シン）による投稿 in Databricks ブログ

Original Post： Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM 翻訳： Takaaki Yayoi 2週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)である Dolly をリリースしました。本日、研究と商用利用にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMである Dolly 2.0 をリリースします。...

Databricks と同等の価格性能を持つという Snowflake の主張に対する反論

November 16, 2021 モスタファ・モクタール、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in Databricks ブログ

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、データウェアハウスの公式世界記録を更新したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとしてオンラインで公開されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター（BSC）によるベンチマークテストの結果を共有し、Databricks SQL が競合...