プラットフォーム | Databricks Blog

ページ 21

Databricksのワークフローを利用したLakehouseのオーケストレーション

June 12, 2023 Ori Zohar、リチャード・トムリンソン、ビラル・アスラム、エリカ・エーリ、ローランド・フェストリンによる投稿 in プラットフォーム

Original: Lakehouse Orchestration with Databricks Workflows 翻訳: junichi.maruyama 業界を問わず、組織はレイクハウス・アーキテクチャを採用し、すべてのデータ、アナリティクス、AIのワークロードに統一プラットフォームを使用しています。ワークロードを本番環境に移行する際、組織はワークロードのオーケストレーションの方法が、データとAIソリューションから引き出すことのできる価値にとって重要であることに気づいています。オーケストレーションが正しく行われれば、データチームの生産性を向上させ、イノベーションを加速させることができ、より良いインサイトと観測性を提供でき、最後にパイプラインの信頼性とリソース利用を改善することができる。 Databricks Lakehouse Platformの活用を選択したお客様にとって、オーケストレーションがもたらすこれらの潜在的なメリットはすべて手の届くところにありますが、Lakehouseとうまく統合されたオーケ

Databricks Unity CatalogをオープンなApache Hive Metastore APIで拡張可能になりました

June 10, 2023 トッド・グリーンスタイン、Junlin Zeng、Vihang Karajgaonkar、ゼアシャン・パッパ、Abhishek Pratap Singh、サチン・タクール、Matei Zaharia による投稿 in プラットフォーム

Original: Extending Databricks Unity Catalog with an Open Apache Hive Metastore API 翻訳: saki.kitaoka 本日、Databricks Unity CatalogのHive Metastore（HMS）インターフェイスのプレビューを発表しました。Apache Hiveは、業界で最も広くサポートされているカタログインターフェースであり、事実上すべての主要なコンピューティングプラットフォームで使用可能です。この機能により、企業はデータ管理、発見、ガバナンスをUnity Catalogに一元化し、Amazon Elastic MapReduce（EMR）、オープンソースのApache Spark、Amazon...

Visual Studio Codeを使ってコードやノートブックをデバッグしましょう

June 7, 2023 Saad Ansari、Fabian Jakobs、Kartik Gupta、ウラディスラフ・マンティック＝ルーゴによる投稿 in プラットフォーム

Original: Debug your code and notebooks by using Visual Studio Code 翻訳: saki.kitaoka 今年初めに、Visual Studio Code用の公式Databricks拡張機能をローンチしました。今日、この拡張機能を使って、インタラクティブなデバッグとローカルJupyter（ipynb）ノートブック開発をサポートする機能を追加しています！ Databricks Connectを使ったインタラクティブなデバッグデータサイエンティストやデータエンジニアは通常、コードのエラーを特定するためにprint文やログに頼っていますが、これは時間がかかり、エラーが生じやすいです。...

Delta Live Tablesを用いたサイバーセキュリティのレイクハウス向けETLパイプラインの構築

June 7, 2023 Silvio Fiorito による投稿 in データエンジニアリング

翻訳: Masahiko Kitamura オリジナル記事: Building ETL pipelines for the cybersecurity lakehouse with Delta Live Tables Databricksはこのほど、データエンジニア、データサイエンティスト、アナリストが、複雑なインフラを管理することなく、あらゆるクラウド上で信頼性の高いデータ、分析、MLワークフローを構築できるようにする Workflows を発表しました。Workflowsでは、 Delta Live Tables を使用して、インジェストやリネージを含む自動管理されたETLパイプラインを構築することができます。ワークフローとDelta Live...

CrowdStrike Falconのイベントに向けてサイバーセキュリティのレイクハウスの構築

June 7, 2023 Aemro Amare、アルン・パムラパティ、Yong Sheng Huang、Jason Pohl による投稿 in プラットフォーム

翻訳: Masahiko Kitamura オリジナル記事: Building a Cybersecurity Lakehouse for CrowdStrike Falcon Events 今すぐDatabricksを導入して、こちらのノートブックを実行してみてください。エンドポイントデータは、セキュリティチームが脅威の検出、脅威の狩猟、インシデント調査、およびコンプライアンス要件を満たすために必要です。データ量は、1日あたりテラバイト、1年あたりペタバイトになることもあります。ほとんどの組織がエンドポイントログの収集、保存、分析に苦労しているのは、このような大容量のデータに関連するコストと複雑さのためです。しかし、こうである必要はありません。この2部構成のブログシリーズでは、Databricksを使用してペタバイトのエンドポイントデータを運用し、高度な分析によってセキュリティ体制を向上させる方法を、コスト効率の良い方法でご紹介します。第1部（このブログ）では、データ収集のアーキテクチャとSIEM（Sp

Delta Live Table（DLT）を用いたGDPR・CCPAにおける「忘れられる権利」の取り扱いについて

June 1, 2023 Marcin Wojtyczka による投稿 in プラットフォーム

Original: Handling "Right to be Forgotten" in GDPR and CCPA using Delta Live Tables (DLT) 翻訳: junichi.maruyama ここ数十年でデータ量は爆発的に増加し、各国政府は個人データに対する個人の保護と権利を強化するための規制を設けています。 General Data Protection Regulation （GDPR）と...

ファイルアップロードとデータ追加UIでLakehouseに簡単に取り込む

May 30, 2023 Emma Liu、Vincent Liaw、Yu Guo、マラキ・ケテマ、アミット・カラ、ブレヒト・ムーランによる投稿 in プラットフォーム

Original: Easy Ingestion to Lakehouse with File Upload and Add Data UI 翻訳: junichi.maruyama Lakehouseへのデータ取り込みは、多くの組織にとってボトルネックとなり得ますが、Databricksを使用すれば、様々なタイプのデータを迅速かつ容易に取り込むことができます。小さなローカルファイルでも、データベース、データウェアハウス、メインフレームなどの大規模なオンプレミスストレージプラットフォームでも、リアルタイムストリーミングデータでも、その他のバルクデータ資産でも、DatabricksはAuto Loader、COPY INTO、Apache Spark™ API、設定可能なコネクタなどの幅広い取り込みオプションであなたをサポートします。また、ノーコードまたはローコードアプローチをご希望の場合は、Databricksはインジェストを簡素化する使いやすいインターフェイスを提供します。データインジェストブログシリーズの第

Azure DatabricksのAzure Confidential Computingサポートに関するパブリックプレビューのお知らせ

May 23, 2023 ケリー・アルバノ、Samrat Ray による投稿 in プラットフォーム

Original : Announcing the Public Preview of Azure Databricks support for Azure confidential computing 翻訳： junichi.maruyama 私たちは、 Azure Databricks が Azure confidential computing...

一部の地域でDatabricks SQL Serverlessの一般利用開始を発表します！

May 22, 2023 Cyrielle Simeone、シャント・ホヴセピアン、ガウラヴ・サラフによる投稿 in プラットフォーム

Original: Announcing the General Availability of Databricks SQL Serverless ! 翻訳: saki.kitaoka 本日、AWSおよびAzureの一部地域でDatabricks SQLのサーバーレスコンピューティングが一般利用可能になったことを発表することを大変嬉しく思います！ Databricks SQL (DB SQL) サーバーレスは、インスタントでエラスティックなコンピューティングによる最高のパフォーマンスを提供し、コストを削減し、インフラの管理ではなくビジネスへの最大の価値提供に注力できるようにします。GA（一般提供）により、Databricksからの最高レベルの安定性、サポート、エンタープライズ対応を、Databricks Lakehouse Platform上のミッションクリティカルなワークロードに対して期待することができます。このブログ記事では、DB SQL...

Databricksがファイルサイズの自動最適化によりクエリパフォーマンスを最大2.2倍向上させた方法

May 22, 2023 シルイ・サン、ヒマンシュウ・ラジャ、ヴィジャヤン・プラバカラン、テリー・キムによる投稿 in プラットフォーム

Original : How Databricks improved query performance by up to 2.2x by automatically optimizing file sizes 翻訳：saki.kitaoka テーブルファイルサイズの最適化は、長い間データエンジニアにとって必要だが複雑なタスクでした。テーブルの適切なファイルサイズに到達すると、大幅なパフォーマンス向上が実現しますが、これは伝統的に深い専門知識と大量の時間投資を必要としていました。最近、Databricks SQLのためのPredictive I/O( Predictive I/O...