プラットフォーム | Databricks Blog

ページ 27

Databricks で構築するエンドツーエンドの深層学習パイプライン

August 25, 2021 Oliver Koernig、Ashley Trainor による投稿 in プラットフォーム

深層学習（DL）モデルは、金融サービスにおける不正検知、メディアにおけるパーソナライゼーション、ヘルスケアにおける画像認識など、あらゆる業界のユースケースに適用されています。このような応用範囲の拡大により、深層学習技術の使用は、ほんの数年前に比べてはるかに容易になっています。 TensorFlow や Pytorch などよく使用される深層学習フレームワークは、精度の高いパフォーマンスを発揮できるまでに成熟しています。マネージド MLflow を備えた Databricks のレイクハウスプラットフォームのような機械学習（ML）環境では、 Horovod や Pandas UDF などのツールを使用した深層学習の分散実行が非常に容易になりました。課題現在でも引き続き残っている主要な課題の 1 つは、制御・再現可能な方法で深層学習の機械学習パイプラインを自動化し、運用を最適化することです。 Kubeflow のような技術はソリューションを提供していますが、多くの場合、深い専門知識を必要とし、利用可能なマネー

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in Databricks ブログ

学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス（カナダ）や、東京（日本）、チューリッヒ（スイス）、杭州（中国）など世界中に存在し、オン／オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。「Beacon」（灯台や標識塔）という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

BI ツールの広帯域接続を実現するには

August 11, 2021 Bogdan Ionut Ghit、Juliusz Sompolski、ステファニア・レオーネ、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Tableau や Microsoft Power BI などのビジネスインテリジェンス（BI）ツールは、従来のデータウェアハウスから大規模なクエリ結果を抽出するのに多くの時間を要することで知られています。これは、通常、データ転送のボトルネックとなる SQL エンドポイントを介してシングルスレッドでデータを取得するためです。Databricks の SQL エンドポイントに使用している BI ツールを接続することで、データアナリストは、Simba ドライバに統合された ODBC/JDBC プロトコルを介してテーブルのデータのクエリを実行できます。また、Databricks ランタイム 8.3 および Simba ODBC 2.6.17 ドライバでリリースした...

クラウドスケールでのサイバーセキュリティのためのSIEMの強化

July 22, 2021 Michael Ortega、Monzy Merza による投稿 in プラットフォーム

翻訳: Masahiko Kitamura オリジナル記事： Augment Your SIEM for Cybersecurity at Cloud Scale この10年間で、セキュリティインシデント・イベント管理ツール（SIEM）は、企業のセキュリティ運用における標準的なものとなっています。しかし、SIEMには常に否定的な意見もあります。しかし、クラウドが爆発的に普及したことで、「クラウドスケールの世界ではSIEMは正しい戦略なのか？HSBCのセキュリティ・リーダーは、そう考えていません。HSBCは、最近の講演「サイバーセキュリティのためのDatabricks LakehouseでSplunkやその他のSIEMを強化する」で、レガシーSIEMの限界とDatabricks Lakehouseプラットフォームがサイバーセキュリティをどのように変革しているかを強調しました。3兆ドルの資産を持つHSBCの話は、少し調べてみる価値がありそうです。このブログでは、変化するITとサイバー攻撃の脅威の状況、SIEMの

公開プレビュー：Databricks ジョブによる複数タスクのオーケストレーション

July 13, 2021 ローランド・フェストリンによる投稿 in プラットフォーム

ドキュメントを読む企業におけるビジネスインテリジェンス（BI）や、人工知能（AI）への取り組みの強化に伴い、シンプルで明確かつ信頼性の高いデータ処理タスクのオーケストレーションへのニーズが高まっています。Databricks のユーザーの選択肢はこれまで、複数のタスクを１つの Notebook で実行する、もしくは、別のワークフローのツールを使用して、ユーザーの環境全体をさらに複雑にするしかありませんでした。本日、私たちは、タスクのオーケストレーションをサポートする Databricks ジョブのパブリックプレビューを発表しました。この機能により、複数タスクを有向非巡回グラフ（DAG）として実行することが可能になります。ジョブとは、Databricks のクラスタでアプリケーションを実行する非インタラクティブな方法です。例えば、ETL ジョブやデータ分析タスクをすぐに実行したり、スケジュールを設定して実行したりします。このジョブ内で複数のタスクをオーケストレーションする機能は、追加のコストは不要で、データ

医療分野におけるNLP（自然言語処理）の大規模な活用方法とは

July 1, 2021 Michael Ortega、Michael Sanky、Moritz Steller による投稿 in プラットフォーム

This is a co-authored post written in collaboration with Moritz Steller, AI Evangelist, at John Snow Labs. Don't miss our virtual workshop, Extract...

Databricksのファイルシステム

June 16, 2021 Takaaki Yayoi による投稿 in ソリューション

こちらからサンプルノートブックをダウンロードできます。 Databricksでファイルを取り扱う際には、Databricks File System (DBFS) を理解する必要があります。本記事では、DBFSの概要をご説明するとともに、具体的な使用例をご説明します。 Databricks File System (DBFS) Databricks File System (DBFS) はDatabricksのワークスペースにマウントされる分散ファイルシステムです。Databricksクラスターから利用することができます。DBFSはクラウドのオブジェクトストレージを抽象化するものであり、以下のメリットをもたらします：オブジェクトストレージ(S3/Azure Blob Storageなど)追加の認証情報なしにオブジェクトストレージにアクセスすることができます。ストレージURLではなく、ディレクトリ、ファイルの文法に従ってファイルにアクセスできます。ファイルはオブジェクトストレージで永続化されるので、クラス

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

May 24, 2021 ルーク・ビルブロ、ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）による投稿 in プラットフォーム

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規／更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR（デマンドシグナルリポジトリ）は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。このようなタイプのデータをまとめる際の課題は、異なるデータの照

Databricks on Google Cloud を発表しました

February 17, 2021 Hiral Jasani による投稿 in お知らせ

Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

データブリックスとアクセンチュアの連携で大規模な機械学習の運用を効率化

February 1, 2021 Jim Gregg、Atish Ray による投稿 in パートナー

データブリックスはこのたび、アクセンチュアとのパートナーシップを発表しました。このパートナーシップを通じて世界中のエンタープライズ企業に、私たちのサービスと再利用可能なコンポーネントを提供できることが期待されています。また、データ戦略、データ設計、データプラットフォームの最新化、および AI を専門とするアクセンチュアのデータ・AI 部門は、データブリックスの統合データ分析プラットフォームを活用し、これまでに実証された手法を、機械学習の大規模な運用に向けて最適化できます。アクセンチュアとデータブリックスは共に、エンタープライズにおけるデータのサイロ化の解消、アジャイルで適応性の高いプロセスの構築、データドリブンな意思決定による問題解決、新たな機会創出を可能にします。アクセンチュアとデータブリックスのグローバルなパートナーシップは、両社が以前から共同でソリューションアクセラレータおよびソリューションを開発してきた実績に基づいています。私たちはさまざまな業界のお客様にこれらを提供し、機会創出を支援してきました。また