Databricks ブログ

ページ 28

モザイク評価ガントレットのキャリブレーション

April 30, 2024 テッサ・バートンによる投稿 in モザイクリサーチ

良いベンチマークとは、どのモデルが優れていて、どのモデルが劣っているかを明確に示すものです。 Databricks Mosaic Researchチームは、研究者が実験を評価するための優れた測定ツールを見つけることに専念しています。モザイク評価ガントレットは、モデルの質を評価するためのベンチマークセットで、言語理解、読解力、記号的問題解決、世界知識、常識、プログラミングの6つのコアコンピテンシーにまたがる39の公開ベンチマークで構成されています。モデル規模を超えた研究タスクに最も有用なメトリクスに優先順位をつけるため、一連の高度なモデルを使用してベンチマークをテストしました。最近の研究、特に DeepMindのChinchilla論文では、パラメータ数と学習データサイズの両方を増やすことで言語モデルをスケールアップすると、性能が大幅に向上することが実証されています。信頼できるベンチマークセットを特定するには、モデルの性能とスケールの間に確立された関係を活用します。スケーリング法則は個々のベンチマーク

Databricks が 2024 年 Forrester Wave データレイクハウス部門でリーダーに選出

April 30, 2024 エリカ・エーリ、Sonya Vargas による投稿 in お知らせ

Forrester Wave™ において、Databricks が現在のオファリングと戦略の両カテゴリーで最高得点を獲得し、Leader に認定されました：データレイクハウス、2024年第2四半期。 Forrester社は、13のベンダーを24の基準で評価しました。報告書の無料ダウンロードはこちらから。 2024 Forrester Wave for Data Lakehouses Databricksはレイクハウスカテゴリーのパイオニアであり、2024年のForrester Wave for Data Lakehousesでリーダーに選ばれたことを嬉しく思います。 Databricksは、19の基準で5/5のスコアを獲得し、現在の提供と戦略のカテゴリーで最高のスコアを獲得しました。データレイクハウスは、データインテリジェンスプラットフォーム...

Databricks が AWS GovCloud 上で FedRAMP High agency ATO を取得、現在パブリックプレビュー中

April 30, 2024 フィリッポ・セラチーニ、ドミトリー・レイヴァンド、ケリー・アルバノ、リサ・シオンによる投稿 in 業界

私たちは、Databricks on AWS GovCloudが現在パブリックプレビュー中であること、そして最近、最初の FedRAMP® High Agency ATO を獲得したことを発表できることを嬉しく思います！国際武器取引規制（ITAR）およびHIPAAのユースケースをサポートする準備が整いました。間もなく国防総省影響レベル 5 (IL5) の暫定認可が得られる予定です。本日の発表は、Databricks にとってエキサイティングなコンプライアンスマイルストーンの最新版です。これは、FedRAMP Highのスポンサー機関とプレビューのお客様の功績を称えるものであり、米国市民権移民サービス、メディケアおよびメディケイドサービスセンター、米国食品医薬品局のような公共部門のお客様が、市民サービスの向上とミッションの成功を達成するためのデータインテリジェンスの約束を実現するための支援に重点を置いていることを反映しています。...

DatabricksIQ LLMの品質向上 - AIによるテーブル説明文の生成

April 29, 2024 スダルシャン・セシャドリ、Matthew Hayes、Ritendra Datta、リチャード・トムリンソンによる投稿 in エンジニアリングのブログ

最近、 Unity CatalogのAI生成コメントをサポートする基礎となるアルゴリズムに大幅な改善を加えました。その結果を皆さんにお伝えできることを嬉しく思います。Databricks のデータインテリジェンスエンジンである DatabricksIQ を通じて、AIによって生成されたコメントは、顧客のUnity Catalogテーブルの新しいドキュメントの大部分をすでに生成しており、最近の機能強化は、この非常に人気のある機能をさらに強化します。このブログでは、トレーニングデータの合成に更新されたオープンソースLLMを使用する方法、トレーニングデータのクリーニングにヒューリスティックフィルターを使用する方法、ファインチューニング用に更新されたベースモデルを使用する方法、および自動ベンチマークで利用される拡張評価セットを使用する方法について説明します。最小限の労力で、これらの変更により、オフラインベンチマークで以前に導入されたモデルと比較して、優先率が 2倍に増加しました。さらに広い意味では、この取り

Databricks Generative AIハッカソン受賞者発表

April 26, 2024 ジャッキー・ザンによる投稿 in Databricks ブログ

Databricks Generative AIハッカソンの受賞者を発表できることを嬉しく思います。このハッカソンには、18カ国以上から60の招待企業にまたがる数百人のデータとAIの実務家が集まりました。イベント期間中、参加者はDatabricksテクノロジーを活用し、RAG（Retrieval Augmented Generation）を利用してさまざまなユースケースを解決しました。応募作品は、技術的な卓越性、創造性、潜在的な影響力に基づいて評価されました。このイベントは、参加者がDatabricksベクトル検索、データ準備、モデルサービングを実際に体験する初めてのハッカソンでした。多くのインパクトのあるプロジェクトがありましたが、中でも3つのチームは、顧客体験に取り組む現実的なユースケースで際立っていました。インパクトのあるプロジェクトを創造し、生成AIでビジネスを変革した受賞チームの皆さん、おめでとうございます！受賞者 🏆 第1 位： HEB - "Shop It Easy" - Datab

Unity Catalog Lakeguard：業界初、マルチユーザーのApache Sparkクラスター向けのデータガバナンス

April 24, 2024 ステファニア・レオーネ、マーティン・グルンド、ヘルマン・ファン・ヘーベル、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in プラットフォーム> 製品> お知らせ

Unity Catalog Lakeguardを発表できることを嬉しく思います。これにより、Databricksデータインテリジェンスプラットフォームのコスト効率の高いマルチユーザーコンピューティング上で完全なデータガバナンスを備えたSQL、Python、ScalaでApache Spark™ ワークロードを実行できるようになります。従来、ガバナンスを強化するにはシングルユーザークラスターを使用する必要があり、コストと運用のオーバーヘッドを負担する必要がありました。 Lakeguardを使用すると、ユーザーコードは他のユーザーのコードや共有コンピュート上のSparkエンジンから完全に分離された状態で実行されるため、実行時にデータガバナンスを強制することができます。これにより、クラスターをチーム全体で安全に共有し、計算コストを削減し、運用の手間を最小限に抑えることができます。 Lakeguardは、 Unity Catalog の導入以来、不可欠な存在となっています。DBR 13.1ではPython

データの民主化：信頼されたデータの活用によるビジネスの変革

April 24, 2024 ジョシュ・ハワードによる投稿 in データ戦略

データの民主化は、単なるテクノロジー、技術のバズワードのように聞こえるかもしれませんが、組織が収集するデータは日々増加しており、企業がそこから価値を引き出したいのであれば、データの正確性、信頼性、アクセシビリティを優先する必要があります。そこで、データの民主化が役立ちます。しかし、データの民主化とは一体何なのでしょうか。また、高いレベルのガバナンスと信頼を維持しながら、それを達成するにはどうすればよいでしょうか。データの民主化を成功させるためのステップと、それがビジネスにどのような利益をもたらし、人工知能（AI）戦略をどのようにサポートできるかをご覧ください。データの民主化とは？データの民主化とは、組織内のすべての人がデータに（適切に）アクセスできるようにすることであり、データを理解するために必要なツールやトレーニングを提供することです。つまり、すべてのエンドユーザー（従業員、利害関係者、消費者）がデータを扱うことに自信を持ち、特にAIモデルに関して最終結果を信頼できるように、障壁を取り除き、教育を提

Databricks アセットバンドルの一般提供開始のお知らせ

April 23, 2024 ピーテル・ノールトハウス、Saad Ansari、レナート・カッツ、ジャッキー・ザンによる投稿 in プラットフォーム> 製品> お知らせ

Databricks Asset Bundles（DABs）のGA（General Availability ）を発表できることを嬉しく思います。 DABsを利用することで、ジョブ、パイプライン、ノートブックなどのリソースを簡単にまとめて、プロジェクトを一つの単位としてバージョン管理、テスト、デプロイ、共同作業ができます。DABsはDatabricksプラットフォームでのデータとAIプロジェクトにおけるソフトウェアエンジニアリングのベストプラクティスを取り入れるための強力なサポートを提供します。また、すべてのデータ資産をコードとして扱い、ソースコントロール、コードレビュー、テスト、継続的インテグレーションおよびデリバリー（CI/CD）をスムーズに行えるよう支援します。すでに数百の顧客が本番環境でDABsを使用している今、この機能をすべての顧客に提供できることを楽しみにしています。コラボレーションと自動化の強化：プロジェクト向けDABsの活用 DABsは、データとAIプロジェクトを記述するシンプルで宣言的な形式

今すぐ登録すると、Data + AI Summitでのトレーニングが50％オフで受講できます！

April 23, 2024 チャン・レ、ジュリエット・ウーによる投稿 in Databricks ブログ

期間限定で、Data + AI Summitでのトレーニングと認定試験を50％割引で提供します。割引コードは「TRAIN50FOTY」です。このオファーは2024年5月3日に終了しますので、今すぐ登録してトレーニングを追加しましょう。今年、Databricksのトレーニングと認定プログラムがサンフランシスコで開催されるData + AI Summitに戻ってきます。開催期間は6月10日から13日です。プログラムはさらに充実し、多様なトレーニングコースや、当社のラーニングハブを通じた参加型の活動が増えています。 Databricksでは、生成AI、データエンジニアリング、機械学習／データサイエンスなど、多岐にわたるテーマを扱う20のコースを通じて実践的なトレーニングを提供しています。これらのコースは、キャリアを加速させたいと考えるデータおよびAIの専門家や、組織内でより大きな成果を目指す方々に最適です。さらに、会場での認定試験を割引価格で受けられるほか、当社の学習プログラムを直接体験できるラーニングハブも設け

Databricks上のMeta Llama 3でエンタープライズ生成AIアプリを構築

April 18, 2024 アフマド・ビラル、ハゲイ・ルペスコによる投稿 in データサイエンス・ML

私たちはMeta社と共同で、最新の大規模言語モデル Meta Llama 3 を Databricks上でリリースできることを嬉しく思います。Databricks上のLlama 3により、あらゆる規模の企業が、完全に管理されたAPIを介してこの新しいモデルを導入することができます。Meta Llama 3は、オープン言語モデルの新しいスタンダードとなり、最先端のクローズドモデルに匹敵する機能を、コミュニティと独自のLLMを開発する企業の両方に提供します。Databricksでは、オープンな言語モデルを推進するというMetaのコミットメントに共感しており、この新しいモデルを初日から企業のお客様にご利用いただけることに興奮しています。 Meta Llama 3は、今後数日のうちにリージョンごとに展開される予定で、Databricksモデルサービング上の統一的なAPIを通じてアクセスすることができます。つまり、組織固有のデータを安全に活用しながら、ユースケースに最適なモデルを使用して、高品質で本番規模の生成AIアプリ