Unity Catalogのオープンソース化を発表します!
Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン
Databricks + Tabular
私たちは、データマネジメント会社であるTabular, Incを買収することに合意したことを発表できることを非常に嬉しく思います。この会社はRyan Blue、Daniel Weeks、Jason Reidによって設立されました。この買収により、Apache Iceberg™のオリジナルの作成者と、Linux Foundation Delta Lakeの作成者たちが一堂に会することになります。これにより、データの形式に縛られることなくデータ互換性を実現するための道が開かれます。本ブログでは、短期的にはDelta Lake UniForm内で、長期的には単一でオープンかつ共通の相互運用性の標準へと進化させることを目指し、IcebergおよびDelta Lakeコミュニティと緊密に連携してフォーマット互換性を実現する方法について説明します。取引が完了次第、このチームを迎えることを楽しみにしており、オープンレイクハウスのビジョンに向けて共同で取り組むことに興奮しています。 レイクハウスアーキテクチャの台頭とフォーマット
「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして
Databricksのミッションは、「組織が独自のデータを理解し、使用して独自のAIシステムを構築できるようにすること」です。つまりはすべての企業にデータインテリジェンスを提供することです。 本日、このミッションの達成へと大きく踏み出すため、 Mosaic Research チームによって構築された汎用の大規模言語モデル(LLM)であるDBRXをオープンソース化します。このモデルは、標準的なベンチマークにおいて既存のすべてのオープンソースモデルを凌駕しています。オープンソースモデルの限界を押し広げることが、すべての企業に対してカスタマイズ可能で透明性のある生成AIを可能にすると私たちは信じています。 私たちが「DBRX」に興奮するのには、3つの明確な理由があります。 まず第一に、言語理解、プログラミング、数学、論理において、LLaMA2-70B、Mixtral、Grok-1などのオープンソースモデルを圧倒しています(図1参照)。実際、私たちのオープンソースベンチマーク「 Gauntlet 」 には、30以上の異な
データインテリジェンスプラットフォームへようこそ!:Databricks + Einblick
Databricksは、AIが企業のデータとの関わり方を変えると信じています 。 このようなわけで、 Einblick チームをDatabricksに迎え入れることになりました。 Einblick(アインブリック)は、マサチューセッツ工科大学とブラウン大学の研究者によって設立され、機械学習、ヒューマンコンピュータインタラクション、自然言語処理の境界を探る研究を行っています。 Einblickチームは過去4年間、ユーザーが たった一文でデータ問題を解決 できるAIネイティブコラボレーションプラットフォームを構築してきました。 DatabricksでEinblickの旅が続くことを楽しみにしています! Einblick + データインテリジェンス ジェネレーティブAIの台頭が新世代のデータシステムを実現可能にしました:それが、 データ・インテリジェンス・プラットフォーム です。 旧世代のデータ・インフラストラクチャとは異なり、データ・インテリジェンス・プラットフォームは、専門家でないユーザーが洞察や情報にアクセスでき
データ・インテリジェンス・プラットフォーム
「 ソフトウェアが世界を食べている 」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなく AIがすべてのソフトウェアを食べるようになる と考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。 その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。 これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォー
Databricks + MosaicML
翻訳:Junichi Maruyama. - Original Blog Link 本日、私たちはMosaicMLの買収を完了したことをお伝えできることを嬉しく思います。MosaicMLは、企業向けにジェネレーティブAIモデルを作成し、カスタマイズするための先進的なプラットフォームです。Databricksの創業以来、私たちのミッションは、あらゆる企業のためにデータとAIを民主化することでした。MosaicMLと共に、ジェネレーティブAIアプリケーションのトレーニング、カスタマイズ、デプロイのためのクラス最高のエクスペリエンスを提供する予定です。 私たちはMosaicMLチームと協力し、ジェネレーティブAIを企業の主流にするために必要な3つの最も重要な開発を加速させます: モデル能力の迅速な民主化: 私たちは、すべての企業がモデルを広く利用できる未来を確信しています。あらゆるテクノロジーの民主化には、価格の引き下げとアクセスの向上が必要です。MosaicMLチームは、大規模な言語モデルのトレーニングとカスタマイズ
LakehouseIQのご紹介: あなたのビジネスを独自に理解するAIエンジン
翻訳:Junichi Maruyama. - Original Blog Link 本日、LakehouseIQを発表いたします。LakehouseIQは、お客様のビジネスとデータのユニークなニュアンスを学習し、様々なユースケースで自然言語によるアクセスを可能にするナレッジエンジンです。LakehouseIQは、組織内のどの従業員でも自然言語でデータを検索、理解、照会することができます。LakehouseIQは、お客様のデータ、使用パターン、組織図に関する情報をもとに、専門用語や独自のデータ環境を理解し、素朴なLarge Language Models (LLM)よりもはるかに優れた回答を提供します。 ラージ・ランゲージ・モデルはもちろん、データに言語インターフェースをもたらすと約束されており、どのデータ会社もAIアシスタントを追加しているが、現実には、これらのソリューションの多くは企業データでは不十分である。どの企業も独自のデータセット、専門用語、ビジネス上の質問に答えるために必要な内部知識を持っており、質問に
ようこそOkera: AIを中心としたアプローチでガバナンスを実現する
Original: Welcome Okera: Adopting an AI-centric approach to governance 翻訳: junichi.maruyama Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近の Dolly 2.0 の導入以来、すべてのお客様が、AIと大規模言語モデル(LLM)の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。 そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その
Databricks ❤️ Hugging Face
Original Blog : Databricks ❤️ Hugging Face 翻訳: junichi.maruyama ジェネレーティブAIが世界を席巻しています。データ&AIカンパニーである私たちは、オープンソースの大規模言語モデル「Dolly」と、そのファインチューニングに使用した研究・商用利用のための社内クラウドソーシングデータセット「databricks-dolly-15k」をリリースし、この旅に参加しています。モデルもデータセットも、Hugging Faceで公開されています。そして今日、私たちはHugging Faceコードベースへの最初の公式コミットを発表し、ユーザーがApache Spark™データフレームからHugging Faceデータセットを簡単に作成できるようにすることに興奮しています。 「Databricksがモデルやデータセットをコミュニティに公開することは素晴らしいことですが、今回、Hugging Faceに直接オープンソースを提供することで、その作業を拡張していることがわか
Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM
Original Post: Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM 翻訳: Takaaki Yayoi 2週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)である Dolly をリリースしました。本日、 研究と商用利用 にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMである Dolly 2.0 をリリースします。...