メインコンテンツへジャンプ
<
ページ 29

広告効果測定:機械学習モデル作成による広告・マーケティングデータ分析方法(クリック予測)

July 19, 2018 Tony Cruz による投稿 in
広告部門では、膨大な量の多様なマーケティングデータや Web 広告の効果を測定/分析するために、拡張性が高く柔軟なプラットフォーム・方法を必要としています。ビッグデータを活用したマーケティング効果測定(分類、クラスタリング、認識、予測、推薦などの高度な分析)によって、ビジネスの成果に結びつく、データからの深い洞察の抽出が可能となります。さまざまな種類の Web 広告の普及による多様なタイプのデータの増大に備え、Apache Sparkは、API と分散コンピューティングエンジンによってデータを容易にかつ並列に処理し、価値創出までの時間を短縮します。 Databricks レイクハウスプラットフォーム は、最適化されたマネージドクラウドサービスを提供し、コンピューティング資源と、共同作業のためのワークスペースのプロビジョニングを、セルフサービスで行う手段を提供します。 多くのデータサイエンティストが利用する Web サイト「Kaggle」から、広告インプレッションとクリックに関するデータ Click-Through

MLflow の概要:機械学習ライフサイクル管理のためのオープンソースプラットフォームとは

June 5, 2018 Matei Zaharia による投稿 in
データブリックスの「マネージド型 MLflow」とは MLflow とは、実験の追跡、モデルの管理やデプロイメントといった、機械学習におけるライフサイクルを管理するためのオープンソースのプラットフォームです。機械学習(ML)の開発を経験した人は誰でも、その複雑さを知っています。ソフトウェア開発における通常の懸念事項に加えて、機械学習開発には、複数の新たな懸念が伴います。データブリックスの数百社のお客様に共通する課題として、次のような事柄が挙げられます。 ツールの種類が多すぎる :データ準備からモデルトレーニングまで、数百のオープンソースツールが機械学習(ML)ライフサイクルの各フェーズに対応しています。しかし、部門が各フェーズで 1 つのツールを選択する従来のソフトウェア開発とは異なり、機械学習では、通常、 利用可能な全てのツール (アルゴリズムなど)を試して、結果が改善されるかどうかを確認します。そのため、機械学習開発者は数十のライブラリを使用し、本番環境に導入する必要があります。 実験の追跡が困難 :機械学習

PySpark で Pandas UDF を使用する

October 30, 2017 Li Jin による投稿 in
※ Spark 3.0 では、新しい Pandas UDF が導入されました。詳細はブログ「 New Pandas UDFs and Python Type Hints in the Upcoming Release of Apache Spark 3.0 」をご覧ください。...

リアルタイムストリーミング ETL を実現するツール

Data+AI Summit、Spark+AI Summit のアーカイブを視聴できます。 こちら のサイトをご覧ください。 Databricks の Notebook を試してみる 現在、多くの企業がビッグデータの活用を目指してデータの継続的収集に取り組んでいます。収集した膨大なデータは、その中から有用な情報をタイムリーに抽出してこそ価値を生み出します。そこで、データ収集パイプラインから行動につながる気づきをリアルタイムに引き出すための 継続的アプリケーション の必要性が高まっています。 しかし、実運用に耐える継続的アプリケーションを構築するのは容易なことではなく、開発者はさまざまな課題を解決しなければなりません。その代表例を挙げてみます。 エンドツーエンドの信頼性と正確性の確保 :長期間の継続実行が期待されるデータ処理システムは、各出力とバッチ処理結果との整合性を維持することで、優れた耐障害性が確保されなければなりません。また、異常な動作(アップストリームコンポーネントの障害、トラフィックの急上昇など)を監視