Databricks Unityカタログのシステムテーブルを使用したLakehouseセキュリティ監視の改善
翻訳:Junichi Maruyama. - Original Blog Link データフォワード組織にとってレイクハウスがますますミッションクリティカルになるにつれて、予期せぬイベント、停止、セキュリティインシデントが新たな予期せぬ方法で業務を頓挫させるリスクも高まっています。Databricks は いくつかの重要な観測可能性機能 を提供し、顧客がこの新しい脅威のセットを先取りし、かつてないほどレイクハウスを可視化できるように支援します。 セキュリティの観点から、組織が現代社会に適応する方法の 1 つは、 ゼロ トラスト アーキテクチャ (ZTA) モデルに従うことによって、「信頼せず、常に検証する」という原則に頼ることです。このブログでは、 Databricks Lakehouse Platform 上でZTAを始める方法を紹介し、一連のSQLクエリとアラートを自動生成するDatabricks Notebookを共有します。もしあなたが普段このようなことにTerraformを使っているのであれば、...
AIデータの簡素化
翻訳:Junichi Maruyama. - Original Blog Link どのデータサイエンス組織と話しても、高品質なAIモデルを構築するための最大の課題はデータへのアクセスと管理であると、ほぼ全員が口を揃えて言うだろう。長年にわたり、実務家は実験と開発を加速させるために様々なテクノロジーと抽象化を利用してきた。ここ数年、フィーチャーストアは、機械学習のためにデータを整理し準備する方法として、実務家の間でますます普及している。2022年初頭、Databricksはフィーチャーストアの一般提供を開始しました。この夏、Databricks Unity Catalogのネイティブ機能としてフィーチャーエンジニアリングと管理を導入できることを嬉しく思います。これは、AIデータをよりシンプルに管理する方法の大きな進化を意味します。この進化は、フィーチャー管理とクラス最高のデータカタログを一体化させ、フィーチャーを作成し、それらを使用してモデルをトレーニングし、サービスを提供するプロセスを簡素化し、安全にします。
集まれ!Legendary Heroes of DATA + AI !! Vol 5
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 5として、前回のVol4 に引き続き 株式会社ナレッジコミュニケーション様 から 山川 将也 様 をご紹介します。 —- 以前にご紹介したLegendary...
データレイクハウスでビットコインマイナーからコンピューティングリソースを守る
翻訳:Junichi Maruyama. - Original Blog Link 暗号通貨、特にビットコインの人気が高まるにつれ、ビットコインのマイニング現象が起きている。通常の採掘作業はブロックチェーンの検証とセキュリティにとって重要である一方、悪意のある行為者が違法な採掘目的でクラウド・コンピューティング・リソースを悪用するという不穏な傾向も現れている。これは高価な処理リソースを浪費するだけでなく、クラウドサービスプロバイダーとそのクライアントの双方に深刻なセキュリティ上の脅威をもたらします。効果的な脅威の検知と対応は、高度な脅威検知のためのスケールや機能を提供しないサイロ化されたツールのコストと複雑 さが課題となっています。 このブログでは、ビットコインマイニングの悪用に対抗するためにデータレイクハウスをどのように活用できるかを見ていきます。組織はレイクハウスを使用してペタバイト級のデータを分析し、高度な分析を適用してサイバーリスクと運用コストを削減することができます。DatabricksのLakehous
コンテキストを認識するAIアシスタント、Databricks Assistantの紹介
翻訳:Junichi Maruyama. - Original Blog Link 本日、Databricks Notebooks、SQLエディタ、ファイルエディタでネイティブに利用可能な、コンテキストを意識したAIアシスタント、Databricks Assistantのパブリックプレビューを発表します。Databricks Assistantを使えば、会話形式のインターフェイスでデータを照会することができ、Databricks内での生産性が向上します。タスクを英語で説明すると、 アシスタントが SQL クエリを生成し、複雑なコードを説明し、エラーを自動的に修正します。アシスタントは、Unity カタログのメタデータを活用して、テーブル、カラム、説明、および会社全体で人気のあるデータ資産を理解し、あなたにパーソナライズされた応答を提供します。 データおよびAIプロジェクトの迅速な構築 SQLまたはPythonコードの生成 Databricks Assistant は Databricks の各編集画面にネイティブに
クラウドエンジニアがAWSにDatabricksをデプロイするためのベストプラクティスとガイダンス: パート3
翻訳:Junichi Maruyama. - Original Blog Link クラウドエンジニアがAWSにDatabricksをデプロイするためのベストプラクティスとガイダンスシリーズの最終回として、重要なトピックである 自動化 を取り上げます。このブログポストでは、デプロイで使用される3つのエンドポイントを分解し、CloudFormationやTerraformのような一般的なInfrastructure as Code (IaC)ツールの例を説明し、自動化のための一般的なベストプラクティスで締めくくります。 しかし、これから参加される方には、Databricks on AWSのアーキテクチャとクラウドエンジニアにとっての利点について説明した part one を読まれることをお勧めします。また part two では、AWS 上でのデプロイとベストプラクティス、そして推奨事項について説明します。 クラウド・オートメーションのバックボーン...
MetaのLlama 2とDatabricksでジェネレーティブAIアプリを構築する
翻訳:Junichi Maruyama. - Original Blog Link 本日、Meta社は最新の大規模言語モデル(LLM)である Llama 2 をオープンソースとして公開し、商用利用を開始した1。これはオープンソースAIにとって重要な進展であり、ローンチ・パートナーとしてMetaと協力できたことはエキサイティングでした。私たちは、Llama 2のモデルを事前に試すことができ、その能力とあらゆる可能性のあるアプリケーションに感銘を受けました。 今年初め、メタ社は LLaMA をリリースし、オープンソース(OSS)LLMのフロンティアを大きく前進させた。v1モデルは商用利用はできないが、生成AIとLLM の研究を大きく加速させた。 Alpaca と Vicuna は、高品質な指示フォローとチャットデータがあれば、LLaMAをChatGPTのように振る舞うようにファインチューニングできることを実証した。この研究結果に基づいて、Databricksは databricks-dolly-15k 命令追跡データセ
ビートを逃さない: Databricksワークフローにおけるモニタリングとアラートの新機能を発表
翻訳:Junichi Maruyama. - Original Blog Link この度、 Databricks Workflows の監視・観測機能が強化されました。これには、すべてのプロダクションジョブの実行を一箇所で確認できる新しいリアルタイムインサイトダッシュボード、すべてのワークフローに対する高度で詳細なタスクトラッキング、問題が発生する前に問題をキャッチするための新しいアラート機能などが含まれます。これらの素晴らしい新機能の目標は、あらゆるスキルレベルのデータ実務者の生産性を最適化しながら、すべてのプロダクション・ワークフローを全体的に把握できるようにすることで、日々の業務を簡素化することです。 Databricks Workflows は、Databricks Lakehouse Platformと完全に統合された、データ、アナリティクス、MLのワークロードのための、使いやすく、信頼性の高い、完全に管理されたオーケストレーションソリューションです。直感的なUIを備えているため、すべてのデータ実務者
Databricks Unityカタログのボリュームのパブリックプレビューを発表
翻訳:Junichi Maruyama. - Original Blog Link Data and AI Summit 2023では、Databricks Unity Catalogの Volumes を紹介した。この機能により、Unity Catalog内の表形式データとともに、非構造化データ、半構造化データ、構造化データなど、あらゆる非表形式データの発見、管理、処理、系譜の追跡が可能になります。本日、AWS、Azure、GCPで利用可能な Volumes のパブリックプレビューを発表できることを嬉しく思います。 このブログでは、表形式以外のデータに関連する一般的なユースケースについて説明し、Unity CatalogのVolumesを使用した主な機能の概要を提供し、Volumesの実用的なアプリケーションを示す作業例を紹 介し、Volumesを開始する方法の詳細を提供します。 非表形式データのガバナンスとアクセスに関連する一般的なユースケース Databricks Lakehouse...
Data + AI Summit 2023におけるデータエンジニアリングとストリーミングの最新情報
翻訳:Junichi Maruyama. - Original Blog Link 今日は木曜日で、2023年データ+AIサミットからの発表の週を終えたばかりです。今年のサミットのテーマは「ジェネレーションAI」であり、LLM、レイクハウスアーキテクチャ、そしてデータとAIにおけるすべての最新イノベーションを探求するテーマでした。 最新のジェネレーティブAIのイノベーションを支えるのは、最新のデータエンジニアリングスタックです。 最新のジェネレーティブAIのイノベーションを支えるのは、Delta Lake、Spark、Databricks Lakehouse Platformが提供する最新のデータエンジニアリングスタックです。Databricks Lakehouseは、 Delta Live Tables や Databricks Workflows などのソリューションにより、高度なデータパイプラインの構築とオーケストレーションの課題に取り組むデータエンジニアを支援する高度な機能を提供します。 このブログ記事で