メインコンテンツへジャンプ
<
ページ 3
>

AIデータの簡素化

翻訳:Junichi Maruyama. - Original Blog Link どのデータサイエンス組織と話しても、高品質なAIモデルを構築するための最大の課題はデータへのアクセスと管理であると、ほぼ全員が口を揃えて言うだろう。長年にわたり、実務家は実験と開発を加速させるために様々なテクノロジーと抽象化を利用してきた。ここ数年、フィーチャーストアは、機械学習のためにデータを整理し準備する方法として、実務家の間でますます普及している。2022年初頭、Databricksはフィーチャーストアの一般提供を開始しました。この夏、Databricks Unity Catalogのネイティブ機能としてフィーチャーエンジニアリングと管理を導入できることを嬉しく思います。これは、AIデータをよりシンプルに管理する方法の大きな進化を意味します。この進化は、フィーチャー管理とクラス最高のデータカタログを一体化させ、フィーチャーを作成し、それらを使用してモデルをトレーニングし、サービスを提供するプロセスを簡素化し、安全にします。

データレイクハウスでビットコインマイナーからコンピューティングリソースを守る

August 3, 2023 Anirudh Kondaveeeti による投稿 in プラットフォームブログ
翻訳:Junichi Maruyama. - Original Blog Link 暗号通貨、特にビットコインの人気が高まるにつれ、ビットコインのマイニング現象が起きている。通常の採掘作業はブロックチェーンの検証とセキュリティにとって重要である一方、悪意のある行為者が違法な採掘目的でクラウド・コンピューティング・リソースを悪用するという不穏な傾向も現れている。これは高価な処理リソースを浪費するだけでなく、クラウドサービスプロバイダーとそのクライアントの双方に深刻なセキュリティ上の脅威をもたらします。効果的な脅威の検知と対応は、高度な脅威検知のためのスケールや機能を提供しないサイロ化されたツールのコストと複雑さが課題となっています。 このブログでは、ビットコインマイニングの悪用に対抗するためにデータレイクハウスをどのように活用できるかを見ていきます。組織はレイクハウスを使用してペタバイト級のデータを分析し、高度な分析を適用してサイバーリスクと運用コストを削減することができます。DatabricksのLakehous

クラウドエンジニアがAWSにDatabricksをデプロイするためのベストプラクティスとガイダンス: パート3

July 29, 2023 JD BraunTony Bo による投稿 in プラットフォームブログ
翻訳:Junichi Maruyama. - Original Blog Link クラウドエンジニアがAWSにDatabricksをデプロイするためのベストプラクティスとガイダンスシリーズの最終回として、重要なトピックである 自動化 を取り上げます。このブログポストでは、デプロイで使用される3つのエンドポイントを分解し、CloudFormationやTerraformのような一般的なInfrastructure as Code (IaC)ツールの例を説明し、自動化のための一般的なベストプラクティスで締めくくります。 しかし、これから参加される方には、Databricks on AWSのアーキテクチャとクラウドエンジニアにとっての利点について説明した part one を読まれることをお勧めします。また part two では、AWS 上でのデプロイとベストプラクティス、そして推奨事項について説明します。 クラウド・オートメーションのバックボーン...

Delta Live Table(DLT)を用いたGDPR・CCPAにおける「忘れられる権利」の取り扱いについて

June 1, 2023 Marcin Wojtyczka による投稿 in プラットフォームブログ
Original: Handling "Right to be Forgotten" in GDPR and CCPA using Delta Live Tables (DLT) 翻訳: junichi.maruyama ここ数十年でデータ量は爆発的に増加し、各国政府は個人データに対する個人の保護と権利を強化するための規制を設けています。 General Data Protection Regulation (GDPR)と...

Databricksがファイルサイズの自動最適化によりクエリパフォーマンスを最大2.2倍向上させた方法

Original : How Databricks improved query performance by up to 2.2x by automatically optimizing file sizes 翻訳:saki.kitaoka テーブルファイルサイズの最適化は、長い間データエンジニアにとって必要だが複雑なタスクでした。テーブルの適切なファイルサイズに到達すると、大幅なパフォーマンス向上が実現しますが、これは伝統的に深い専門知識と大量の時間投資を必要としていました。 最近、Databricks SQLのためのPredictive I/O( Predictive I/O...

Unity Catalogにおけるデータ権限モデルとアクセス制御のためのヒッチハイカーズガイド

The Hitchhiker's Guide to data privilege model and access control in Unity Catalog 翻訳: junichi.maruyama データの量、速度、多様性が増すにつれ、組織は、中核となるビジネス成果を適切に満たすために、確固たるデータガバナンスの実践にますます頼るようになっています。 Unity Catalog は、Databricks Lakehouseを支えるデータとAIのためのきめ細かなガバナンス・ソリューションです。データアクセスを管理・監査するための一元的なメカニズムを提供することで、企業のデータ資産のセキュリティとガバナンスを簡素化することができます。 Unity Catalogがファイル、テーブルの権限モデルを統一し、すべての言語をサポートするようになる以前、お客様は レガシーワークスペースレベルのテーブルACL(TACL)...

ソフトウェア開発およびDevOpsのベストプラクティスをDelta Live Tableパイプラインに適用

April 28, 2023 Alex Ott による投稿 in プラットフォームブログ
Original Blog : Applying software development & DevOps best practices to Delta Live Table pipelines 翻訳: junichi.maruyama Databricks Delta Live Tables(DLT)は、データエンジニアが記述・維持する必要のあるコード量を減らすことで、堅牢なデータ処理パイプラインの開発を根本的に簡素化します。また、環境間でコードとパイプラインの構成をシームレスに推進できるようにしながら、データのメンテナンスとインフラ運用の必要性を低減します。しかし、パイプラインに含まれるコードのテストを行う必要があり、それを効率的に行う方法についてよく質問を受けます。 このブログでは、複数のお客様との共同作業の経験に基づき、以下の項目を取り上げます: DevOpsのベストプラクティスをDelta...

Lakehouseの価値を最大化するためのデータアーキテクチャパターン

Original Blog : A data architecture pattern to maximize the value of the Lakehouse 翻訳: junichi.maruyama Lakehouseの優れた成果の1つは、従来のBI、機械学習&AIといったモダンなユースケースのワークロードを1つのプラットフォームで組み合わせることができることです。このブログ記事では、「1つのプラットフォームに2つのサイロがある」というリスクを軽減するアーキテクチャ・パターンを説明しています。本ブログで紹介するアプローチに従えば、機械学習やAIを利用するデータサイエンティストは、組織のビジネス情報モデルから得られる信頼性の高いデータに容易にアクセスできるようになります。同時に、ビジネスアナリストは、中核となるエンタープライズデータウェアハウス(EDW)の安定性と適合性を維持しながら、レイクハウスの機能を活用してデータウェアハウス(DWH)プロジェクトのデリバリーを加速させることができます。 データレイクと

SAPと共にオープンデータエコシステムを開発する

Original Blog : Developing an Open Data Ecosystem with SAP 翻訳: junichi.maruyama 製造業、エネルギー、ライフサイエンス、小売業など、さまざまな業界で、企業がビジネスの耐久性、回復力、持続可能性を重視し、重要な意思決定にデータを活用するようになってきています。これらの業界の企業における重要なデータの大半は、SAPアプリケーションからもたらされています。 SAP Datasphere は、財務、サプライチェーン、CRM、人事など、ERPやその他の機能アプリケーション群にまたがるSAPデータへのシームレスかつスケーラブルなアクセスを可能にする包括的なデータサービスで、DatabricksはSAPの4つのローンチパートナーに加わったことを発表できることを嬉しく思っています。SAP Datasphereは、 ビジネスデータファブリックアーキテクチャ を実現し、ビジネスコンテキストやデータモデルビューをそのままにSAPデータを提供し、SAPデータの

Delta Live Tablesで10億レコードのETLを1ドル未満で実行した方法

Original: How We Performed ETL on One Billion Records For Under $1 With Delta Live Tables 翻訳: junichi.maruyama 今日、DatabricksはETL(Extract、Transform、Load)の価格とパフォーマンスの新しい標準を打ち立てました。お客様は10年以上前からDatabricksをETLパイプラインに使用していますが、従来のETL技術を使用してEDW(Enterprise Data Warehouse)のディメンションモデルにデータを取り込む場合、クラス最高の価格とパフォーマンスを公式に実証しています。 そのために、データ統合、つまり一般にETLと呼ばれるもののための最初の業界標準ベンチマークである TPC-DI...