Databricks ブログ

ページ 64

臨床データによる腫瘍学の知見抽出に NLP を活用

September 22, 2021 アミール・ケルマニ、Moritz Steller、David Talby、Michael Sanky による投稿 in エンジニアリングのブログ

このブログで参照しているソリューションアクセラレータのノートブックは、オンラインでご参照いただくか、ノートブックをダウンロードしてお使いの Databricks アカウントにインポートすることで、すぐにご利用いただけます。米国における死亡原因および疾病原因の第 1 位は悪性腫瘍（がん）です。その数は驚異的で、今年、米国では新たに診断されるがん患者は約 200 万人になると予想されています。また、米国における医療費は、悪性腫瘍（がん）に関連するものが大部分を占めており、その額は、2020 年で 2,000 億ドルを超えると推定されています。このため、バイオ医薬品業界では、がん治療のための創薬に特に注力しています。2019 年、2020 年だけでも、FDA によっておよそ...

Part 1：Databricks Notebook と Azure DevOps で Databricks に CI/CD を実装

September 20, 2021 マイケル・シュテルマ、Piotr Majer による投稿 in プラットフォーム

ブログ内に掲載されているコードの詳細は、こちらからご覧ください。このブログは、エンドツーエンドの MLOps ソリューションを Databricks Notebook と Repos API を使用して設定、構築する方法を解説するブログシリーズの Part 1 です。今回は、Notebook をベースとした Databricks における CI/CD（継続的インテグレーション／継続的デリバリ）フレームワークについて解説します。継続的インテグレーション（CI）は Microsoft Azure DevOps のエコシステムと、継続的デリバリ（CD）は...

アシュリオン社、レイクハウスでビッグデータのための ETL 導入 – データマート設計など

September 16, 2021 Tomasz Magdanski による投稿 in Databricks ブログ

この記事は、アシュリオン（Asurion）社エンジニアリング部門シニアディレクター Tomasz Magdanski 氏による特別寄稿によるものです。アシュリオン（Asurion）社では、デバイスの保険やインストール、修理、交換、24 時間 365 日のサポートの提供を通じて、お客様がセキュアに、かつ快適に最新テクノロジーを利用できるよう支援しています。1 万人のエキスパートで構成されるサポートチームが、世界中の約 3 億のお客様の日々のニーズに電話やオンライン、対面で対応しています。サポート内容は、スマートフォンの即日交換、快適なストリーミングや接続を可能にするための技術的な問題の解決など多岐に及びます。アシュリオン社では、種類や購入元にかかわらず、テクノロジーに常にアクセスできる環境、テクノロジーを最大限に活用できる環境をお客様に提供できるよう努めています。レイクハウスで大規模 ETL を導入した背景と課題アシュリオン社のエンタープライズデータサービスチームでは、全組織から 3,500 以上のデータ資

金融サービスのリスク管理に AI を活用する 4 つのメリット

September 16, 2021 Fahmid Kabir、アントワーヌ・アメンド（Antoine Amend）による投稿 in データ戦略

効果的なリスク・コンプライアンス管理について詳しくは、こちらのページをご覧ください。銀行などの金融サービスにおける中核的な機能は、詐欺、マネーロンダリングなどの金融犯罪から顧客を守ることによる資産の保護、リスクの特定、損失の軽減です。相互に絡まり合ったデジタルな現在の世界において、金融サービスにおけるリスク・コンプライアンスの管理は、これまでになく複雑でコストのかかる取り組みとなっています。2008 年のグローバル金融危機以来、コンプライアンスなどの規制変更は 500% 増加し、プロセスにおける規制のコストは増大しています。金融サービス機関（FSI）では、2020 年に更新されたマネーロンダリング対策（AML）や 2023 年のトレーディング勘定の抜本的見直し（FRTB）、EU における PSD2 のような新たな規制への対応に追われています。コンプライアンス規制への対応に加え、データ管理やリスク評価の改善を求める消費者の声もあり、銀行の運用コストは 60% 増加しています。コンプライアンスの問題は、

データレイクハウスによるリアルタイムPOS分析

September 8, 2021 ブライアン・スミス（Bryan Smith）、Rob Saker による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、シームレスなオムニチャネル体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。パンデミック（世界的大流行）以前は、小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、オンラインと店舗を統合したエクスペリエンスへの需要を高めるだけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。リアルタイムの情報へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大

Databricks SQL の最新イテレーション、新たな性能、速度改善

September 8, 2021 Reynold Xin（レイノルド・シン）、Can Efeoglu による投稿 in プラットフォーム

Data+AI サミット 2020 Europe で発表した Databricks SQL は、マルチクラウドのレイクハウスアーキテクチャの運用を可能にし、データウェアハウスの性能とデータレイクの経済性を同時に実現します。Databricks では、レイクハウスを活用した知見の抽出および共有を容易にすることを目標に、データアナリスト向けに、最適化された SQL UI や主要な BI ツールの充実したサポート機能を含む、シンプルで使いやすいツールの提供に尽力しています。 Databricks SQL についても同様に、性能、使いやすさ、ガバナンスの向上を目指してイノベーションに日々取り組んでいます。その内容について、複数回のブログを通じてご紹介する予定です。今回は、その第一弾として、以下の各シナリオにおける Databricks SQL...

FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現

September 7, 2021 Greg Wood、アミール・ケルマニによる投稿 in プラットフォーム

科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことができません。あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability（検索性）、Accessibility（アクセス性）、Interoperab

外部から Databricks 上の MLflow を使用する

September 1, 2021 Masahiko Kitamura による投稿 in チュートリアル

MLOps を効果的に実施するためのフレームワークである MLFlow はあらゆる環境での機械学習を一元的に管理することが可能です。Databricks ではこの MLflow をマネージドサービスとして提供しており、Databricks 上での機械学習はもちろん、Databricks 環境以外での機械学習についても連携することが可能です。この記事では、 Databricks の外部環境（ローカル PC 上など）からワークスペース内の MLflow を使用する方法について説明します。以下のステップで実行していきます Databricks ワークスペースに MLflow の experiment を作成する...

データレイクで増分 ETL のメリットを活かす - CDC の課題など

August 30, 2021 John O'Dwyer による投稿 in データエンジニアリング

従来のデータウェアハウスでの増分 ETL といえば、CDC（change data capture、変更データキャプチャ）を利用する方法が一般的になっています。しかし、スケーラビリティ、コスト、状態の把握や機械学習との連携が困難であることなどの問題があり、この CDC により増分 ETL を実行する方法は、必ずしも理想的とはいえません。一方、データレイクでの増分 ETL は、これまで、ビッグデータのテーブルのデータ更新や変更データの特定ができないといった理由により不可能とされてきました。しかし今日、データレイクで増分 ETL を利用することが可能になりました！増分 ETL には多くのメリットがあります。効率性やシンプルさ、データサイエンティストやデータアナリストのどちらも利用できる柔軟なデータアーキテクチャの構築などが挙げられます。このブログでは、データレイクで増分 ETL を使用するメリットと、それをサポートするデータアーキテクチャについて解説します。増分 ETL とは？まず、増分 ETL とは何かを明らか

データレイクハウスに関する FAQ

August 30, 2021 Michael Armbrust、Bharath Gowda、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォーム

FAQ （よくある質問）データレイクハウスとは？データレイクとは？データウェアハウスとは？データレイクハウスとデータウェアハウスの違いは何ですか？データレイクハウスとデータレイクの違いは何ですか？データアナリストは容易にデータレイクハウスを利用できますか？データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。データレイクハウスはどのようなデータガバナンス機能をサポートしていますか？データレイクハウスは一元化する必要がありますか？それともデータメッシュに分散できますか？データメッシュとデータレイクハウスとの関係は？データレイクハウスとは？データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能（AI）やビジネスインテリジェンス（BI）を直接実行できるアーキテクチャです。現在、企業ではデータの大部分をデータレイクに格納しています。データレイクは、あらゆる種類のデータ（構造化、非構造化を問わない）を管理し、どんな処理ツールでも実行