主キーと外部キー制約が一般提供開始:クエリの高速化を実現
Databricksは、Databricks Runtime 15.2およびDatabricks SQL 2024.30から始まる主キー(PK)および外部キー(FK)制約の一般提供(GA)を発表することを大変嬉しく思います。このリリースは、毎週数百のアクティブな顧客によって受け入れられた非常に成功したパブリックプレビューに続き、レイクハウス内のデータ整合性とリレーショナルデータ管理の強化における重要なマイルストーンをさらに表しています。 さらに、Databricksはこれらの制約を使用してクエリを最適化し、クエリプランから不要な操作を排除することができ、パフォーマンスを大幅に向上させることができます。 主キーと外部キー制約 主キー(PK)と外部キー(FK)は、リレーショナルデータベースの基本的な構成要素であり、データモデリングの基礎を形成します。これらは、スキーマ内のデータ関係についての情報をユーザー、ツール、アプリケーションに提供し、制約を活用した最適化を可能にし、クエリの速度を向上させます。主キーと外部キーは
Databricks における Databricks:Unity Catalog でガバナンスへの旅を始める
Databricks のデータ プラットフォーム チームとして、私たちは独自のプラットフォームを活用して、直感的で構成可能な包括的なデータおよび AI プラットフォームを社内のデータ担当者に提供し、彼らが安全に使用状況を分析し、製品とビジネス オペレーションを改善できるようにしています。 当社は成長するにつれて、安全でコンプライアンスに準拠した費用対効果の高いデータ運用を可能にするデータガバナンスを確立することに特に意欲を持っています。 何千人もの従業員と何百ものチームがデータを分析しているため、大規模なデータガバナンスと継続的なコンプライアンスを達成するには、一貫した基準を構築して実装する必要があります。 当社では、2022 年 8 月に一般公開された Unity Catalog (UC) を標準的なガバナンスプラクティスを確立するための基盤として特定し、社内レイクハウスの 100% を Unity Catalog に移行することが会社の最優先事項となりました。 データガバナンスを実現するために...
通信業界向け!Databricksで構築する産業IoTとM2Mソリューション
通信業界は、急速な技術の進歩と進化 する市場動向により、大きな変化を遂げています。 通信サービス プロバイダー (CSP) は、顧客向けのモニタリングと最適化、およびパーソナライズされたエクスペリエンスのためにネットワークを管理するためのさまざまなソリューションを構築します。 CSP による 5G ネットワークの導入が進み、自動車、製造、小売、医療、物流などの業界全体で IoT (モノのインターネット) や M2M (マシン ツー マシン) ソリューションに多額の投資が行われる中、CSP は追加のソリューションやサービスでネットワークを収益化することで収益を増加できる独自の立場にあります。 このブログでは、Databricks を使用した IoT および M2M...
オープンソースAIの新標準:DatabricksでMeta Llama 3.1が利用可能に
当社は Meta と提携して Databricks 上で Llama 3.1 シリーズのモデルをリリースし、強力なオープン モデルの標準をさらに前進させられることを嬉しく思います。Llama 3.1 を使用すると、企業は所有権やカス タマイズを犠牲にすることなく、最高品質の GenAI アプリを構築できるようになります。 Databricks では、イノベーションを加速し、オープン言語モデルを使用してより安全なシステムを構築するという Meta の取り組みに賛同しており、新しいモデル スイートを初日からエンタープライズのお客様に提供できることを嬉しく思っています。 Llama 3.1 を Databricks 内にネイティブに統合し、顧客がこれを使用してアプリケーションを簡単に構築できるようにしました。...
生成AIモデルのファインチューニングが簡単に!Mosaic AI Model Trainingが登場
本日、Mosaic AIモデルトレーニングによる生成AIモデルの微調整サポートがパブリックプレビューで利用可能になったことをお知らせできることを嬉しく思います。Databricksでは、汎用LLM(大規模言語モデル)の知能と企業データの知識を結びつけること、すなわち「データインテリジェンス」が高品質な生成AI システム を構築する鍵であると考えています。ファインチューニングにより、モデルは特定のタスクやビジネスコンテキスト、専門知識に特化でき、RAG(再利用可能な生成)と 組み合わせ ることで、より正確なアプリケーションが可能になります。これにより、企業データを取り入れて生成AIを独自のニーズに適応させるための重要な柱となる「データインテリジェンスプラットフォーム戦略」が形成されます。 モデルトレーニング 私たちの顧客は昨年、20万以上のカスタムAIモデルをトレーニングしており、その経験を基にMosaic AI Model Trainingという完全マネージドサービスを開発しました。Llama 3、Mistral
データ駆動の品質革命!ナレッジグラフ&生成AIでゲームを変える
Stardogナビン・シャルマとジョー・ピンデルとの共同執筆作品である。 業界を問わず、納品後の失敗に伴うコスト(リコール、保証請求、納品後の信用失墜など)の影響は甚大です。食品業界では、1件あたりの直接的なコストが1,000万ドルを超えることもあります。その影響は多面的で、売上の減少やブランドの評判へのダメージが伴います。ある推定によると、納品後の失敗による売上損失は、顧客1人あたりの平均収益の2,000倍以上に相当します。このような高リスクの状況で不十分 な対応や遅いレスポンスが続くと、顧客は競合他社へと流れ、将来の成長を支える酸素を断たれることになります。そのため、品質の悪さによるコストは製造業にとって大きな財務負担であり、場合によっては運営コストの最大40%に達することもあります。 企業は品質問題の早期警告指標をもっと得たいと願っていますが、通常は顧客の苦情が増加した後に初めて問題を把握します。典型的な問題は次のようなものです:週末に顧客からの報告が急増し、製品の品質問題やブランドに対する不満が明らかになり
Databricksレイクハウスモニタリングで高品質な予測を確保する
予測モデルは、多くの企業が将来のトレンドを予測するために重要ですが、その精度は入力データの品質に大きく依存します。 データの品質が低いと、予測が不正確になり、最適な意思決定ができなくなる可能性があります。 ここで、 Databricksレイクハウスモニタリングが登場します。これは、予測モデルに流入するデータの品質とモデルのパフォーマンス自体の両方を監視するための統合ソリューションを提供します。 モニタリングは、予測モデルにとって特に重要です。 予測は時系列データを扱うため、データの時間的コンポーネントとシーケンシャルな性質により、複雑さが増します。 入力データの統計的プロパティが時間の経過とともに変化するデータ ドリフトなどの問題は、迅速に検出および対処しないと、予測精度を大幅に低下させる可能性があります。 さらに、予測モデルのパフォーマンスは、予測値と実際の値を比較する平均絶対パーセント誤差 (MAPE) などのメトリクスによって測定されることがよくあります。 ただし、グラウンド トゥルース値はすぐには利用でき
ワールドワイドな真の水リスクの評価をはじめよう!
Translation Reviewed by Akihiro.Kuwano 保険、金融、公共安全など、さまざまな分野で真の水リスク評価を実現 このブログ全体で参照されているノートブックをダウンロードするには、 ソリューション アクセラレータ を確認してください。 水と気候変動は密 接に関連しており、行動を起こさないことのコストが行動のコストを上回ることは明らかです。 過去40年間、米国は大規模な気候災害の劇的な増加により、 2兆ドルを超える復興費用 の増え続ける財政負担に直面してきました。 2023 年だけでも、米国は少なくとも 929 億ドル の価格を計上しました。 世界気象機関(WMO)は 、過去20年間で 洪水の数が134%も増加し、干ばつの発生率は29%増加したと報告しています。 世界中のコミュニティと資産は、水の過剰と不足の両方による大きなリスクに直面しています。 効果的な水リスク管理には、リアルタイムの水リスクデータを継続的にリスクモデルに取り込むことが必要です。...
ノートブック、ワークフロー、Delta Live Tables 用のサーバーレス コンピューティングの一般提供開始のお知らせ
Translation Reviewed by Hiroyuki Nakazato ノートブック、ジョブ、Delta Live Tables(DLT)のサーバーレスコンピューティングが AWS および Azure で一般提供開始となりましたので、お知らせいたします。お客様は Databricks SQL および Databricks モデル サービング 用の高速でシンプル、かつ信頼性の高いサーバーレス コンピューティングをすでに利用しています。 同じ機能が、Apache Spark や...
Patronus AI x Databricks: 幻覚(ハルシネーション)検出のためのトレーニングモデル
大規模言語モデル (LLM) における幻覚は、モデルが実際の現実や提供されたコンテキストと一致しない応答を生成するときに発生します。 この問題は、LLM 出力がユーザー提供のドキュメントにアクセスできる RAG アプリケーションを開発する LLM 実践者にとって課題となります。 たとえば、金融に関する質問への回答や医療診断に使用されている LLM がソース ドキュメントから逸脱した応答を生成すると、ユーザーは誤った情報にさらされ、重大な悪影響が生じます。 LLM-as-a-judge パラダイムは、その柔軟性と使いやすさにより、生成 AI アプリケーションの応答における不正確さを検出するために人気が高まっています。 しかし、GPT-4 のようなトップクラスのパフォーマンスを誇るモデルを使用している場合でも、LLM をジャッジとして使用すると、複雑な推論タスクに対する応答を正確に評価できないことがよくあります。 さらに、クローズドソースの LLM の品質、透明性、コストについても懸念があります。...