メインコンテンツへジャンプ
<
ページ 65
>

Databricks で構築するエンドツーエンドの深層学習パイプライン

August 25, 2021 Oliver KoernigAshley Trainor による投稿 in
深層学習(DL)モデルは、金融サービスにおける不正検知、メディアにおけるパーソナライゼーション、ヘルスケアにおける画像認識など、あらゆる業界のユースケースに適用されています。このような応用範囲の拡大により、深層学習技術の使用は、ほんの数年前に比べてはるかに容易になっています。 TensorFlow や Pytorch などよく使用される深層学習フレームワークは、精度の高いパフォーマンスを発揮できるまでに成熟しています。 マネージド MLflow を備えた Databricks のレイクハウスプラットフォームのような機械学習(ML)環境では、 Horovod や Pandas UDF などのツールを使用した深層学習の分散実行が非常に容易になりました 。 課題 現在でも引き続き残っている主要な課題の 1 つは、制御・再現可能な方法で深層学習の機械学習パイプラインを自動化し、運用を最適化することです。 Kubeflow のような技術はソリューションを提供していますが、多くの場合、深い専門知識を必要とし、利用可能なマネー

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in
学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス(カナダ)や、東京(日本)、チューリッヒ(スイス)、杭州(中国)など世界中に存在し、オン/オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。 「Beacon」(灯台や標識塔)という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

BI ツールの広帯域接続を実現するには

Tableau や Microsoft Power BI などのビジネスインテリジェンス(BI)ツールは、従来のデータウェアハウスから大規模なクエリ結果を抽出するのに多くの時間を要することで知られています。これは、通常、データ転送のボトルネックとなる SQL エンドポイントを介してシングルスレッドでデータを取得するためです。Databricks の SQL エンドポイントに使用している BI ツールを接続することで、データアナリストは、Simba ドライバに統合された ODBC/JDBC プロトコルを介してテーブルのデータのクエリを実行できます。また、Databricks ランタイム 8.3 および Simba ODBC 2.6.17 ドライバでリリースした...

Hadoop からレイクハウスへの移行:成功のための 5 つのステップ

August 6, 2021 Harsh Narula による投稿 in
Hadoop (ハドゥープ)から レイクハウスアーキテクチャ のようなモダンなクラウドベースのアーキテクチャへの移行は、技術的な判断ではなく、ビジネス的な判断です。以前のブログ、 It’s Time to Re-evaluate Your Relationship With Hadoop では、組織がHadoop との関係を再評価する必要がある理由を解説しました。技術やデータ、ビジネスのステークホルダーが、エンタープライズの Hadoop を移行する決断をした後、移行を実行する前に 考慮すべき課題 があります。本ブログでは、実際の移行プロセスそのものに焦点を当て、移行を成功させるための重要なステップや、新たなデータドリブンなイノベーションの成功にレイクレイクハウスアーキテクチャが果たす役割を説明します。 移行のステップ 率直に言って、移行は決して容易ではありません。しかし、移行を構造化することで、リスクを最小限に抑え、ビジネスの継続性を確保し、コストを効果的に管理できます。そのためには、 Hadoop からの移行

クラウドスケールでのサイバーセキュリティのためのSIEMの強化

July 22, 2021 Michael OrtegaMonzy Merza による投稿 in
翻訳: Masahiko Kitamura オリジナル記事: Augment Your SIEM for Cybersecurity at Cloud Scale この10年間で、セキュリティインシデント・イベント管理ツール(SIEM)は、企業のセキュリティ運用における標準的なものとなっています。しかし、SIEMには常に否定的な意見もあります。しかし、クラウドが爆発的に普及したことで、「クラウドスケールの世界ではSIEMは正しい戦略なのか?HSBCのセキュリティ・リーダーは、そう考えていません。HSBCは、最近の講演 「サイバーセキュリティのためのDatabricks LakehouseでSplunkやその他のSIEMを強化する」 で、レガシーSIEMの限界とDatabricks Lakehouseプラットフォームがサイバーセキュリティをどのように変革しているかを強調しました。3兆ドルの資産を持つHSBCの話は、少し調べてみる価値がありそうです。 このブログでは、変化するITとサイバー攻撃の脅威の状況、SIEMの

Delta Lake で機械学習の課題を解決

既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーである Delta Lake や機械学習の開発で使用される MLflow が話題に上る機会が増えています。しかし、多くのケースでは 2 つが別々の製品として取り上げられています。本ブログでは、機械学習の開発の際に起こりうるデータのバージョン管理や OOM エラーなどの課題において Delta Lake と MLflow の相乗効果に焦点を当て、堅牢なデータ基盤に基づく有用な機械学習結果を得るために Delta Lake をいかに活用すべきかについて解説します。 データサイエンティストであれば、機械学習のモデル作成のプロセスは既に整っており、MLflow を機械学習モデルの本番環境へのデプロイに活用したことがあるでしょう。MLflow には、実験を追跡できる機能や、モデルのプロモーションに活用できる MLflow モデルレジストリが備わっています。また、コードのバージョン、クラスタのセットアップ、データの場所などの追跡機能による再現

最新の Data Lakehouse で健康データの力を解き放つ

患者 1 人に対して 年間およそ 80 MB の医療データ が生成されるといわれています。数千人規模の患者の生涯に換算すると、貴重な知見の源となるペタバイト級の患者データが生成されることになります。膨大なデータから知見を抽出することで、臨床業務の効率化、創薬研究の加速、患者の転帰の改善が図れます。これを可能にするためには、データを収集するだけでなく、準備段階として、データの前処理が必要です。ダウンストリームの分析や AI で利用できるよう、収集したデータのクリーニングや構造化を行います。ヘルスケア・ライフサイエンス組織のほとんどが、この準備段階に多大な時間を消費しているのが実情です。 業界におけるデータ分析の課題 ヘルスケア・ライフサイエンス業界の組織が抱える、データ準備、分析、AI における課題には数多くの理由が存在しますが、そのほとんどは、データウェアハウス(DWH)上に構築されたレガシーなデータアーキテクチャへの投資に関係するものです。この業界における 4 つの主要な課題は次のとおりです。 課題 1 - ボ

AI と機械学習のための大規模な特徴量エンジニアリング

July 16, 2021 Li YuDaniel Tomes による投稿 in
特徴量エンジニアリングは、機械学習のプロセスの中で最も重要なステップの 1 つであり、多くの時間を要します。データサイエンティストやアナリストは、さまざまな特徴量を組み合わせた実験を重ねてモデルを改善し、ビジネスに有益な情報を提供する BI レポートの作成を目指します。そのような状況下で、データサイエンティストが扱うデータの規模および複雑さが増大し、次のような事柄が課題となっています。 特徴量をシンプルかつ一貫性のある方法で定義すること 既存の特徴量の識別と再利用 既存の特徴量を利用した拡張 特徴量やモデルのバージョン管理 特徴量定義のライフサイクルの管理 特徴量の計算と保存の効率化 大規模テーブル(>1000 列)の効率的な計算と永続化 意思決定につながるモデルのもとになった特徴量の再現(例:監査や解釈可能性などの実証) このブログでは、大規模データの特徴量を生成する際のデザインパターンについて解説します。また、デザインパターンのリファレンス実装をダウンロード可能な Notebook で提供し、ファースト

公開プレビュー:Databricks ジョブによる複数タスクのオーケストレーション

ドキュメントを読む 企業におけるビジネスインテリジェンス(BI)や、人工知能(AI)への取り組みの強化に伴い、シンプルで明確かつ信頼性の高いデータ処理タスクの オーケストレーション へのニーズが高まっています。Databricks のユーザーの選択肢はこれまで、複数のタスクを1つの Notebook で実行する、もしくは、別のワークフローのツールを使用して、ユーザーの環境全体をさらに複雑にするしかありませんでした。 本日、私たちは、タスクのオーケストレーションをサポートする Databricks ジョブのパブリックプレビューを発表しました。この機能により、複数タスクを有向非巡回グラフ(DAG)として実行することが可能になります。ジョブとは、Databricks のクラスタでアプリケーションを実行する非インタラクティブな方法です。例えば、ETL ジョブやデータ分析タスクをすぐに実行したり、スケジュールを設定して実行したりします。このジョブ内で複数のタスクをオーケストレーションする機能は、追加のコストは不要で、データ

医療分野におけるNLP(自然言語処理)の大規模な活用方法とは

This is a co-authored post written in collaboration with Moritz Steller, AI Evangelist, at John Snow Labs. Don't miss our virtual workshop, Extract...