Databricks ブログ

ページ 65

Databricks で構築するエンドツーエンドの深層学習パイプライン

August 25, 2021 Oliver Koernig、Ashley Trainor による投稿 in プラットフォーム

深層学習（DL）モデルは、金融サービスにおける不正検知、メディアにおけるパーソナライゼーション、ヘルスケアにおける画像認識など、あらゆる業界のユースケースに適用されています。このような応用範囲の拡大により、深層学習技術の使用は、ほんの数年前に比べてはるかに容易になっています。 TensorFlow や Pytorch などよく使用される深層学習フレームワークは、精度の高いパフォーマンスを発揮できるまでに成熟しています。マネージド MLflow を備えた Databricks のレイクハウスプラットフォームのような機械学習（ML）環境では、 Horovod や Pandas UDF などのツールを使用した深層学習の分散実行が非常に容易になりました。課題現在でも引き続き残っている主要な課題の 1 つは、制御・再現可能な方法で深層学習の機械学習パイプラインを自動化し、運用を最適化することです。 Kubeflow のような技術はソリューションを提供していますが、多くの場合、深い専門知識を必要とし、利用可能なマネー

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in Databricks ブログ

学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス（カナダ）や、東京（日本）、チューリッヒ（スイス）、杭州（中国）など世界中に存在し、オン／オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。「Beacon」（灯台や標識塔）という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

BI ツールの広帯域接続を実現するには

August 11, 2021 Bogdan Ionut Ghit、Juliusz Sompolski、ステファニア・レオーネ、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Tableau や Microsoft Power BI などのビジネスインテリジェンス（BI）ツールは、従来のデータウェアハウスから大規模なクエリ結果を抽出するのに多くの時間を要することで知られています。これは、通常、データ転送のボトルネックとなる SQL エンドポイントを介してシングルスレッドでデータを取得するためです。Databricks の SQL エンドポイントに使用している BI ツールを接続することで、データアナリストは、Simba ドライバに統合された ODBC/JDBC プロトコルを介してテーブルのデータのクエリを実行できます。また、Databricks ランタイム 8.3 および Simba ODBC 2.6.17 ドライバでリリースした...

Hadoop からレイクハウスへの移行：成功のための 5 つのステップ

August 6, 2021 Harsh Narula による投稿 in データ戦略

Hadoop （ハドゥープ）からレイクハウスアーキテクチャのようなモダンなクラウドベースのアーキテクチャへの移行は、技術的な判断ではなく、ビジネス的な判断です。以前のブログ、 It’s Time to Re-evaluate Your Relationship With Hadoop では、組織がHadoop との関係を再評価する必要がある理由を解説しました。技術やデータ、ビジネスのステークホルダーが、エンタープライズの Hadoop を移行する決断をした後、移行を実行する前に考慮すべき課題があります。本ブログでは、実際の移行プロセスそのものに焦点を当て、移行を成功させるための重要なステップや、新たなデータドリブンなイノベーションの成功にレイクレイクハウスアーキテクチャが果たす役割を説明します。移行のステップ率直に言って、移行は決して容易ではありません。しかし、移行を構造化することで、リスクを最小限に抑え、ビジネスの継続性を確保し、コストを効果的に管理できます。そのためには、 Hadoop からの移行

クラウドスケールでのサイバーセキュリティのためのSIEMの強化

July 22, 2021 Michael Ortega、Monzy Merza による投稿 in プラットフォーム

翻訳: Masahiko Kitamura オリジナル記事： Augment Your SIEM for Cybersecurity at Cloud Scale この10年間で、セキュリティインシデント・イベント管理ツール（SIEM）は、企業のセキュリティ運用における標準的なものとなっています。しかし、SIEMには常に否定的な意見もあります。しかし、クラウドが爆発的に普及したことで、「クラウドスケールの世界ではSIEMは正しい戦略なのか？HSBCのセキュリティ・リーダーは、そう考えていません。HSBCは、最近の講演「サイバーセキュリティのためのDatabricks LakehouseでSplunkやその他のSIEMを強化する」で、レガシーSIEMの限界とDatabricks Lakehouseプラットフォームがサイバーセキュリティをどのように変革しているかを強調しました。3兆ドルの資産を持つHSBCの話は、少し調べてみる価値がありそうです。このブログでは、変化するITとサイバー攻撃の脅威の状況、SIEMの

Delta Lake で機械学習の課題を解決

July 22, 2021 Marijse van den Berg、マリア・ゼルヴォウによる投稿 in エンジニアリングのブログ

既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーである Delta Lake や機械学習の開発で使用される MLflow が話題に上る機会が増えています。しかし、多くのケースでは 2 つが別々の製品として取り上げられています。本ブログでは、機械学習の開発の際に起こりうるデータのバージョン管理や OOM エラーなどの課題において Delta Lake と MLflow の相乗効果に焦点を当て、堅牢なデータ基盤に基づく有用な機械学習結果を得るために Delta Lake をいかに活用すべきかについて解説します。データサイエンティストであれば、機械学習のモデル作成のプロセスは既に整っており、MLflow を機械学習モデルの本番環境へのデプロイに活用したことがあるでしょう。MLflow には、実験を追跡できる機能や、モデルのプロモーションに活用できる MLflow モデルレジストリが備わっています。また、コードのバージョン、クラスタのセットアップ、データの場所などの追跡機能による再現

AI と機械学習のための大規模な特徴量エンジニアリング

July 16, 2021 Li Yu、Daniel Tomes による投稿 in エンジニアリングのブログ

特徴量エンジニアリングは、機械学習のプロセスの中で最も重要なステップの 1 つであり、多くの時間を要します。データサイエンティストやアナリストは、さまざまな特徴量を組み合わせた実験を重ねてモデルを改善し、ビジネスに有益な情報を提供する BI レポートの作成を目指します。そのような状況下で、データサイエンティストが扱うデータの規模および複雑さが増大し、次のような事柄が課題となっています。特徴量をシンプルかつ一貫性のある方法で定義すること既存の特徴量の識別と再利用既存の特徴量を利用した拡張特徴量やモデルのバージョン管理特徴量定義のライフサイクルの管理特徴量の計算と保存の効率化大規模テーブル（>1000 列）の効率的な計算と永続化意思決定につながるモデルのもとになった特徴量の再現（例：監査や解釈可能性などの実証）このブログでは、大規模データの特徴量を生成する際のデザインパターンについて解説します。また、デザインパターンのリファレンス実装をダウンロード可能な Notebook で提供し、ファースト

公開プレビュー：Databricks ジョブによる複数タスクのオーケストレーション

July 13, 2021 ローランド・フェストリンによる投稿 in プラットフォーム

ドキュメントを読む企業におけるビジネスインテリジェンス（BI）や、人工知能（AI）への取り組みの強化に伴い、シンプルで明確かつ信頼性の高いデータ処理タスクのオーケストレーションへのニーズが高まっています。Databricks のユーザーの選択肢はこれまで、複数のタスクを１つの Notebook で実行する、もしくは、別のワークフローのツールを使用して、ユーザーの環境全体をさらに複雑にするしかありませんでした。本日、私たちは、タスクのオーケストレーションをサポートする Databricks ジョブのパブリックプレビューを発表しました。この機能により、複数タスクを有向非巡回グラフ（DAG）として実行することが可能になります。ジョブとは、Databricks のクラスタでアプリケーションを実行する非インタラクティブな方法です。例えば、ETL ジョブやデータ分析タスクをすぐに実行したり、スケジュールを設定して実行したりします。このジョブ内で複数のタスクをオーケストレーションする機能は、追加のコストは不要で、データ

医療分野におけるNLP（自然言語処理）の大規模な活用方法とは

July 1, 2021 Michael Ortega、Michael Sanky、Moritz Steller による投稿 in プラットフォーム

This is a co-authored post written in collaboration with Moritz Steller, AI Evangelist, at John Snow Labs. Don't miss our virtual workshop, Extract...