Articles by Ali Ghodsi - Databricks ブログ

ページ 2

Dolly：オープンなモデルで ChatGPT の魔法を民主化

March 24, 2023 Mike Conover、Matt Hayes、Ankit Mathur、Xiangrui Meng、謝建偉、Jun Wan、Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia による投稿 in Databricks ブログ

概要 Databricks では、従来のオープンソースの大規模言語モデル（LLM）を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...

データレイクハウスに関する FAQ

August 30, 2021 Michael Armbrust、Bharath Gowda、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォームブログ

FAQ （よくある質問）データレイクハウスとは？データレイクとは？データウェアハウスとは？データレイクハウスとデータウェアハウスの違いは何ですか？データレイクハウスとデータレイクの違いは何ですか？データアナリストは容易にデータレイクハウスを利用できますか？データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。データレイクハウスはどのようなデータガバナンス機能をサポートしていますか？データレイクハウスは一元化する必要がありますか？それともデータメッシュに分散できますか？データメッシュとデータレイクハウスとの関係は？データレイクハウスとは？データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能（AI）やビジネスインテリジェンス（BI）を直接実行できるアーキテクチャです。現在、企業ではデータの大部分をデータレイクに格納しています。データレイクは、あらゆる種類のデータ（構造化、非構造化を問わない）を管理し、どんな処理ツールでも実行

データレイクとデータウェアハウスとは？それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

January 30, 2020 Ben Lorica、Michael Armbrust、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォームブログ

Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「データレイクハウス」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス（DWH: Data Warehouse）、データレイク（Data Lake）それぞれと比較して優れている点について解説します。データウェアハウス（DWH）とはデータウェアハウス（DWH）とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI（ビジネスインテリジェンス）アプリケーションにおいて広く利用されてきており、これには長い歴史があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処理が可能なシステムがもたらされました。しかし、データウェアハウスには、エクセルで作成されたような構造化データ（あらかじ