Articles by アリ・ゴディシ - Databricks ブログ

ページ 1

「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして

March 27, 2024 ジョナサン・フランクル、アリ・ゴディシ、ナヴィーン・ラオ、ハンリン・タン、Abhinav Venigalla、Matei Zaharia による投稿 in Databricks ブログ

Databricksのミッションは、「組織が独自のデータを理解し、使用して独自のAIシステムを構築できるようにすること」です。つまりはすべての企業にデータインテリジェンスを提供することです。本日、このミッションの達成へと大きく踏み出すため、 Mosaic Research チームによって構築された汎用の大規模言語モデル（LLM）であるDBRXをオープンソース化します。このモデルは、標準的なベンチマークにおいて既存のすべてのオープンソースモデルを凌駕しています。オープンソースモデルの限界を押し広げることが、すべての企業に対してカスタマイズ可能で透明性のある生成AIを可能にすると私たちは信じています。私たちが「DBRX」に興奮するのには、3つの明確な理由があります。まず第一に、言語理解、プログラミング、数学、論理において、LLaMA2-70B、Mixtral、Grok-1などのオープンソースモデルを圧倒しています（図1参照）。実際、私たちのオープンソースベンチマーク「 Gauntlet 」には、30以上の異な

データインテリジェンスプラットフォームへようこそ！：Databricks + Einblick

January 30, 2024 アリ・ゴディシ、テッド・トムリンソン、Patrick Wendell（パトリック・ウェンデル）、プレム・プラカシュ、キャシー・ミャオによる投稿 in Databricks ブログ

Databricksは、AIが企業のデータとの関わり方を変えると信じています。このようなわけで、 Einblick チームをDatabricksに迎え入れることになりました。 Einblick(アインブリック)は、マサチューセッツ工科大学とブラウン大学の研究者によって設立され、機械学習、ヒューマンコンピュータインタラクション、自然言語処理の境界を探る研究を行っています。 Einblickチームは過去4年間、ユーザーがたった一文でデータ問題を解決できるAIネイティブコラボレーションプラットフォームを構築してきました。 DatabricksでEinblickの旅が続くことを楽しみにしています！ Einblick + データインテリジェンスジェネレーティブAIの台頭が新世代のデータシステムを実現可能にしました：それが、データ・インテリジェンス・プラットフォームです。旧世代のデータ・インフラストラクチャとは異なり、データ・インテリジェンス・プラットフォームは、専門家でないユーザーが洞察や情報にアクセスでき

データ・インテリジェンス・プラットフォーム

November 15, 2023 Michael Armbrust、Adam Conway（アダム・コンウェイ）、アリ・ゴディシ、ナヴィーン・ラオ、Arsalan Tavakoli-Shiraji（アルサラン・タバコリ・シラジ）、Patrick Wendell（パトリック・ウェンデル）、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in プラットフォームブログ

「ソフトウェアが世界を食べている」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなく AIがすべてのソフトウェアを食べるようになると考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォー

Databricks + MosaicML

July 19, 2023 Matei Zaharia、Patrick Wendell（パトリック・ウェンデル）、Reynold Xin（レイノルド・シン）、アリ・ゴディシによる投稿 in Databricks ブログ

翻訳：Junichi Maruyama. - Original Blog Link 本日、私たちはMosaicMLの買収を完了したことをお伝えできることを嬉しく思います。MosaicMLは、企業向けにジェネレーティブAIモデルを作成し、カスタマイズするための先進的なプラットフォームです。Databricksの創業以来、私たちのミッションは、あらゆる企業のためにデータとAIを民主化することでした。MosaicMLと共に、ジェネレーティブAIアプリケーションのトレーニング、カスタマイズ、デプロイのためのクラス最高のエクスペリエンスを提供する予定です。私たちはMosaicMLチームと協力し、ジェネレーティブAIを企業の主流にするために必要な3つの最も重要な開発を加速させます：モデル能力の迅速な民主化：私たちは、すべての企業がモデルを広く利用できる未来を確信しています。あらゆるテクノロジーの民主化には、価格の引き下げとアクセスの向上が必要です。MosaicMLチームは、大規模な言語モデルのトレーニングとカスタマイズ

LakehouseIQのご紹介：あなたのビジネスを独自に理解するAIエンジン

June 28, 2023 アリ・ゴディシ、Matei Zaharia、Sam Shah、ウェストン・ハッチンス、Austin Green、エリカ・エルリによる投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link 本日、LakehouseIQを発表いたします。LakehouseIQは、お客様のビジネスとデータのユニークなニュアンスを学習し、様々なユースケースで自然言語によるアクセスを可能にするナレッジエンジンです。LakehouseIQは、組織内のどの従業員でも自然言語でデータを検索、理解、照会することができます。LakehouseIQは、お客様のデータ、使用パターン、組織図に関する情報をもとに、専門用語や独自のデータ環境を理解し、素朴なLarge Language Models (LLM)よりもはるかに優れた回答を提供します。ラージ・ランゲージ・モデルはもちろん、データに言語インターフェースをもたらすと約束されており、どのデータ会社もAIアシスタントを追加しているが、現実には、これらのソリューションの多くは企業データでは不十分である。どの企業も独自のデータセット、専門用語、ビジネス上の質問に答えるために必要な内部知識を持っており、質問に

ようこそOkera： AIを中心としたアプローチでガバナンスを実現する

May 3, 2023 Reynold Xin（レイノルド・シン）、アリ・ゴディシ、Matei Zaharia、Patrick Wendell（パトリック・ウェンデル）、Jonathan Keller、サチン・タクール、エリカ・エルリによる投稿 in Databricks ブログ

Original: Welcome Okera: Adopting an AI-centric approach to governance 翻訳: junichi.maruyama Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近の Dolly 2.0 の導入以来、すべてのお客様が、AIと大規模言語モデル（LLM）の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その

Databricks ❤️ Hugging Face

April 26, 2023 アリ・ゴディシ、Patrick Wendell（パトリック・ウェンデル）、マディ・ドーソン、Lu Wang、Xiangrui Meng、ニコラス・ペラエスによる投稿 in オープンソース

Original Blog : Databricks ❤️ Hugging Face 翻訳： junichi.maruyama ジェネレーティブAIが世界を席巻しています。データ＆AIカンパニーである私たちは、オープンソースの大規模言語モデル「Dolly」と、そのファインチューニングに使用した研究・商用利用のための社内クラウドソーシングデータセット「databricks-dolly-15k」をリリースし、この旅に参加しています。モデルもデータセットも、Hugging Faceで公開されています。そして今日、私たちはHugging Faceコードベースへの最初の公式コミットを発表し、ユーザーがApache Spark™データフレームからHugging Faceデータセットを簡単に作成できるようにすることに興奮しています。「Databricksがモデルやデータセットをコミュニティに公開することは素晴らしいことですが、今回、Hugging Faceに直接オープンソースを提供することで、その作業を拡張していることがわか

Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

April 13, 2023 Mike Conover、Matt Hayes、Ankit Mathur、謝建偉、Jun Wan、Sam Shah、アリ・ゴディシ、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia、Reynold Xin（レイノルド・シン）による投稿 in Databricks ブログ

Original Post： Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM 翻訳： Takaaki Yayoi 2週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)である Dolly をリリースしました。本日、研究と商用利用にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMである Dolly 2.0 をリリースします。...

Dolly：オープンなモデルで ChatGPT の魔法を民主化

March 24, 2023 Mike Conover、Matt Hayes、Ankit Mathur、Xiangrui Meng、謝建偉、Jun Wan、アリ・ゴディシ、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia による投稿 in Databricks ブログ

概要 Databricks では、従来のオープンソースの大規模言語モデル（LLM）を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...

データレイクハウスに関する FAQ

August 30, 2021 Michael Armbrust、Bharath Gowda、Arsalan Tavakoli-Shiraji、Reynold Xin（レイノルド・シン）、Matei Zaharia、アリ・ゴディシによる投稿 in プラットフォームブログ

FAQ （よくある質問）データレイクハウスとは？データレイクとは？データウェアハウスとは？データレイクハウスとデータウェアハウスの違いは何ですか？データレイクハウスとデータレイクの違いは何ですか？データアナリストは容易にデータレイクハウスを利用できますか？データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。データレイクハウスはどのようなデータガバナンス機能をサポートしていますか？データレイクハウスは一元化する必要がありますか？それともデータメッシュに分散できますか？データメッシュとデータレイクハウスとの関係は？データレイクハウスとは？データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能（AI）やビジネスインテリジェンス（BI）を直接実行できるアーキテクチャです。現在、企業ではデータの大部分をデータレイクに格納しています。データレイクは、あらゆる種類のデータ（構造化、非構造化を問わない）を管理し、どんな処理ツールでも実行

データレイクとデータウェアハウスとは？それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

January 30, 2020 Ben Lorica、Michael Armbrust、Reynold Xin（レイノルド・シン）、Matei Zaharia、アリ・ゴディシによる投稿 in エンジニアリングのブログ

Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「データレイクハウス」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス（DWH: Data Warehouse）、データレイク（Data Lake）それぞれと比較して優れている点について解説します。データウェアハウス（DWH）とはデータウェアハウス（DWH）とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI（ビジネスインテリジェンス）アプリケーションにおいて広く利用されてきており、これには長い歴史があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処理が可能なシステムがもたらされました。しかし、データウェアハウスには、エクセルで作成されたような構造化データ（あらかじ