メインコンテンツへジャンプ
<
ページ 39
>

Spark ConnectにおけるPythonの依存関係の管理方法

November 13, 2023 Hyukjin Kwon鄭瑞鳳 による投稿 in
分散コンピューティング環境におけるアプリケーションの環境管理は難しい。 すべてのノードがコードを実行するのに必要な環境を持っていることを保証し、ユーザーのコードの実際の場所を決定することは、複雑なタスクである。 Apache Spark™は、Conda、venv、PEXなど様々な方法を提供している。 --jars、--packagesの ようなスクリプトオプションや、 spark.jars.*の ようなSparkコンフィギュレーションをサブミットする方法と 同様に、 PySparkでPythonの依存関係を管理する方法も併せて参照してみてください。これらのオプションにより、ユーザーはクラスタ内の依存関係をシームレスに処理できる。 しかし、Apache Sparkの依存関係を管理するための現在のサポートには限界がある。 依存関係は静的にしか追加できず、実行中に変更することはできない。 つまり、Driverを起動する前に必ず依存関係を設定する必要がある。 この問題に対処するため、Apache Spark 3.5.0か

SQL関数の名前付き引数

本日は、SQL関数で名前付き引数を利用できるようになったことを紹介します。 この機能を使えば、より柔軟な方法で関数を呼び出すことが可能になります。 このブログでは、まずこの機能がどのようなものかを紹介し、次にSQLユーザー定義関数(UDF)のコンテキストで何ができるかを示し、最後に組み込み関数でどのように機能するかを探ります。 まとめると、名前付き引数はSQLのヘビーユーザーにとってもライトユーザーにとっても、作業を容易にする新しい便利な方法です。 名前付き引数とは何か? 多くのプログラミング言語では、関数定義に1つ以上の引数のデフォルト値を含めることができます。 例えば、Pythonでは次のようなメソッドを定義できます: def botw(x, y = 6, z = 7): return x * y + z ユーザーがこの機能を呼び出したい場合、次のように選択できます: botw(5...

サイバーセキュリティ・レイクハウス Part 3: データ解析戦略

November 10, 2023 デレク・キング による投稿 in
この4部構成のブログシリーズ ("Lessons learned from building Cybersecurity Lakehouses," )では、サイバーセキュリティ・データ用のレイクハウスを構築する際に組織がデータエンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用した解決策、ヒント、コツ、ベストプラクティスを紹介する。 パート1では 、まず統一されたイベントのタイムスタンプ抽出から始めた。 パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。 この第3回目のブログでは、 メダリオンアーキテクチャを 指針として、 半構造化機械生成データの解析に関する いくつかの問題に取り組む。 このブログでは、ログ生成データを解析する際に直面する課題について概説し、アナリストが異常な行動、潜在的な侵害、侵害の指標に関する洞察を得るために、データを正確に取得し、解析するためのガイダンスとベストプラクティスを提供します。 このブログが終わる頃には、Cybers

あらゆるユースケースに対応するストリーミング・アーキテクチャが必要な時が来た!

今日のデータ主導の世界では、企業はかつてない規模のデータを効率的に取り込み、処理するという課題に直面している。 常に生成されるビジネスクリティカルなデータの量と多様性により、アーキテクチャの可能性は無限に近い。 良いニュースは? これはまた、スループット、レイテンシー、コスト、運用効率など、データアーキテクチャをさらに最適化できる可能性が常にあることを意味する。 多くのデータ専門家は、"データストリーミング" や"ストリーミングアーキテクチャ" といった用語を、ほとんどのワークロードにとって複雑でコストがかかり、実用的でないように見える超低レイテンシのデータパイプラインと関連付けている。 しかし、Databricks Lakehouse Platform上でストリーミングデータアーキテクチャを採用したチームは、 ほとんどの場合 、スループットの向上、運用オーバーヘッドの削減、コストの大幅削減というメリットを得ることができます。 これらのユーザーの中には、サブ秒単位のレイテンシーでリアルタイムにジョブを実行する者も

DatabricksとMongoDBで保険のAI主導型イノベーションを加速する

November 8, 2023 マルセラ・グラナドスジェフ・ニーダム による投稿 in
保険会社は近代化において大きな変化を遂げている。 伝統的にレガシーシステムの使用で知られる大手通信事業者は、収益性の高い成長を維持することを目標に、クラウドへの移行やAIなどの新技術の採用によってインフラを近代化している。 イノベーションで価値を生み出してきた企業に共通する先進的な手法は、新しいデジタル製品を迅速に市場に投入し、手作業のプロセスを自動化し、どこにいても顧客やそのデータとつながることができることだ。 これが当てはまる主な分野は以下の通りだ: コネクテッド・インシュアランス& モビリティ IoTとテレマティクスの台頭は、保険会社が商品の内容やビジネスのやり方を変えつつあることを意味する。 大手企業(プログレッシブ社)がテレマティクス製品を最初に発売した競争上の優位性について考えてみよう。 より正確な価格設定が可能になり、その結果、より良い保険料につながるのであれば、データを共有することを厭わない顧客層を開拓できるという利点がある。 意思決定支援& 自動化 意思決定サポートと自動化された

Databricksワークスペースに組み込まれたガバナンス機能

November 8, 2023 ポール・ルームサチン・タクール による投稿 in
Databricks Unity Catalogは 、組織がさまざまなデータとAI資産を安全に発見、アクセス、監視、コラボレーションできる統合ソリューションを提供することで、データとAIのガバナンスを簡素化します。 これにはテーブル、MLモデル、ファイル、関数が含まれ、最終的に生産性を高め、Lakehouse環境の可能性を最大限に引き出します。 本日、Unity CatalogがAWSとAzure上の新しいプレミアム・ワークスペースに事前設定され、アクセス可能になったことを発表できることを嬉しく思います。 この機能は、アカウントや地域ごとに順次展開されます。 詳しくは担当者にお問い合わせください。 Unityカタログで事前設定されたワークスペースの概要 ワークスペースにいくつかの新機能が追加されていることにお気づきでしょう。 ワークスペースは、Unityカタログへのアクセス設定済みで提供されます! アカウント管理者によるその後の有効化手順は必要ありません。 ワークスペースにちなんだ名前のカタログが見つかります(こ

サイバーセキュリティ・レイクハウス Part2:取り込み遅延への対応

November 8, 2023 デレク・キング による投稿 in
この4部構成のブログ・シリーズ「 Lessons learned building Cybersecurity Lakehouses 」では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について議論し、それらを克服するために私たちが現場で使用したソリューション、ヒント、トリック、ベスト・プラクティスを紹介する。 パート1では 、まず統一されたイベントのタイムスタンプ抽出から始めた。 この第2部では、効果的なセキュリティ運用を維持するために不可欠な ログの取り込みの遅延を 発見し、対処する方法について見ていく。 このブログが終わるころには、直面する問題のいくつかと、データ取り込みの遅れを監視し報告するために使用できるいくつかのテクニックをしっかりと理解していることだろう。 なぜデータの取り込みが重要なのか? タイムリーで、正確で、検索可能なログデータは、セキュリティ・オペレーションにおいて非常に重要です。 アナリストは、セキュリティ・イベントやインシ

Databricks Lakehouseプラットフォームのブルームバーグ・データを活用したサプライチェーンの混乱とESGリスク管理

このブログは、私たちが提携している業界をリードするデータ・プロバイダーやマーケットプレイスのデータ・プロバイダーを紹介するブログ記事の第一弾です。 ブルームバーグの協力者であるマイケル、マリス、ドンには、この旅を通してのサポートとこのブログへの貢献に感謝する。 サプライチェーンの回復力は、企業にとってますます重要になってきている。 調達マネジャーは、サプライチェーン・ネットワーク全体にわたって透明性のある監視を維持し、潜在的なリスクを認識していなければならない。 近年、サプライチェーンは多くの混乱に直面しており、世界的な大流行によって引き起こされた混乱は、労働者を自宅に留め置き、世界中のサプライチェーンを麻痺させた。 企業がパンデミック(世界的大流行)から脱却するにつれ、リーダーたちは次の大きな混乱にどう備えるべきかを自問自答している。 マッキンゼー・アンド・カンパニーが 2022年に発表した、製造業を対象にした調査報告書によると、過去12ヶ月間にサプライチェーンのリスク管理を新たに実施した企業は全体の3分の2に

Python ユーザー定義テーブル関数(UDTFs)の紹介

Apache Spark™ 3.5とDatabricks Runtime 14.0は、エキサイティングな機能をもたらした:Pythonのユーザー定義テーブル関数(UDTFs)です。 このブログでは、UDTFとは何か、なぜUDTFは強力なのか、そしてどのようにUDTFを使うことができるのかについて説明する。 Pythonのユーザー定義テーブル関数(UDTF)とは? Pythonのユーザー定義テーブル関数(UDTF)は、出力として単一のスカラー結果値の代わりにテーブルを返す新しい種類の関数です。 一度登録されると、SQLクエリの FROM 句に登場させることができる。 各Python UDTFは0個以上の引数を受け入れ、各引数は整数や文字列のような定数スカラー値である。 関数本体は、これらの引数の値を調べて、どのデータを返すべきかを決定することができる。 PythonのUDTFを使うべき理由 要するに、複数の行や列を生成する関数が必要で、Pythonの豊富なエコシステムを活用したいのであれば、Python UDTFが

高度なアナリティクスによる電子事前承認の近代化

このブログは、ZS社ソリューションデリバリーマネージャー、ダン・ニューインガム氏、Databricks社HLSテクニカルディレクター、アーロン・ザボラ氏との共同執筆によるものです。 電子事前承認の 義務化とバリュー・ベースド・ケア(VBC)の取り決めによる償還パターンの進化により、医療保険制度が会員のためにサービスを承認する方法が変化している。 患者の転帰を改善し、事前承認にまつわる増大する管理上の問題を回避し、ビジネスに有意義なROIをもたらすような、増え続けるユースケースでデータを活用する絶好の機会が存在する。 拡大する事前承認の問題 Prior Authorizationは、処置、処方、耐久性医療機器(DME)などの医療サービスの適切な利用を確保するために、医療保険制度によって実施されるプログラムである。 これらのプログラムは、患者のために質の高い結果を維持しながら、不必要なサービスを減らすように設計されている。 質の高い患者の転帰を確保しながらサービスを制限するバランスは、データ& AIを使用しな