業界 | Databricks Blog

ページ 2

2023年のPySpark：1年を振り返って

March 25, 2024 Hyukjin Kwon、上新卓也、アリソン・ワン、鄭瑞鳳、Xinrong Meng、イ・ヘジュン、アマンダ・リューによる投稿 in 業界

2023年にリリースされたApache Spark 3.4と3.5で、私たちはPySparkのパフォーマンス、柔軟性、使いやすさの改善に重点を置きました。このブログ記事では、主な改善点をご紹介します。 2023年にApache Spark 3.4と3.5で追加された最も重要な機能の概要です： Spark Connect は、任意のアプリケーションからSparkクラスタへのリモート接続を可能にする、クライアントとサーバーを分離したアーキテクチャを導入しています。これにより、サービスとしてのSparkは、安定性、アップグレード可能性、可観測性を高めながら実現されます。 Arrowに最適化されたPythonユーザー定義関数（UDF ）では、Arrowのカラムナーフォーマットを活用することで、通常のPython UDFの2倍のパフォーマンスを実現し、飛躍的な効率の向上を示しました。 Pythonのユーザー定義テーブル関数（UDTF）により、ユーザーはPySparkでネイティブにテーブルベースの変換を実行できるように

Hightouch Campaign IntelligenceとDatabricksでより深いマーケティングの洞察を引き出す

March 20, 2024 ネイト・ウォードウェル、サム・ソーヤー、ブライアン・スミス（Bryan Smith）による投稿 in 業界

次世代の顧客体験は、さまざまなタッチポイントから得られるデータと洞察に基づいて構築されます。マーケティング担当者はこれらを通じて、顧客のニーズや嗜好の微妙な違いを察知し、顧客とビジネスの双方に付加価値をもたらすパーソナライズされたエンゲージメントを構築することができます。しかし、そのためには慎重な思考、計画、実行が必要であり、どんなに綿密な計画を立てても成功が保証されるわけではありません。このため、マーケティング担当者は、特定のオファーやコンテンツ単位に対する直接的な顧客の反応と、これらの取り組みがサポートすることを意図した包括的な組織目標の両方の観点から、取り組みの影響を慎重に検討することが不可欠です。この分析により、マーケティングチームは時間と費用をどこに費やすべきかをより的確に判断できるようになります。キャンペーンインテリジェンス：顧客データとマーケティングデータの統合このような分析と洞察のニーズに対応するため、Hightouchはキャンペーンインテリジェンスを導入しました。このソリューシ

生成AIを使って商品コピー（説明文）の作成を拡張する

March 15, 2024 トリステン・ウェントリング、ブライアン・スミス（Bryan Smith）による投稿 in 業界

eコマースプラットフォームでは、優れた商品説明は商品を目立たせ、販売を促進します。優れた商品説明は、正確で読みやすく、顧客のニーズにつながるだけでなく、ブランドや小売業者のサイトのイメージを強化するものでなければなりません。多くの組織では、少人数のライターチームが商品コピーとも呼ばれる説明文の作成に取り組んでいます。ビジネスのニーズによっては、ブランドとの一貫性を保ちながら、消費者の共感を得るために必要なすべての要素をバランスよく配置するまでに、商品コピーは何度も繰り返し進化することがあります。ファッション業界など、新商品の投入頻度が高い業界では、プラットフォームで販売できるようになるまでに時間がかかります。生成AIを使用することで、コピーライターは新しい商品説明文の作成に取り掛かることができます。生成AIは、商品画像から基本的な説明を抽出し、商品に関する情報を組み合わせて、ブランドのニーズに沿ったトーンやスタイルを反映したコピーの草稿を作成するために使用できます。作家はこれらを出発点として、ゼロか

データガバナンスを改善しAI対応の小売組織を構築する

March 13, 2024 サム・ソーヤー、ブライアン・スミス（Bryan Smith）による投稿 in 業界

人工知能は、小売および消費財のすべての経営幹部にとっての最重要の課題です。企業は、より良い顧客サービスを提供し、より迅速で正確な洞察を導き出し、より優れたイノベーションとパートナーとのコラボレーションを推進できる可能性を認識しています。数十億ドルが危険にさらされています。これらの新しいAIシステムを強化するために必要なデータについては、あまり言及されていません。従来のレポートデータに加えて、これらのAIシステムはプレゼンテーション、文書、電子メール、顧客サービスの記録、画像などを消費します。 AIシステムの品質は、システムに供給されるデータがどれだけ適切に管理されているかに完全に依存します。構造化データを運用システムから分析システムに流すプロセスの定義と改良には数十年が費やされましたが、非構造化データをめぐる取り組みの大部分は、ストレージとコンピューティングコストの管理が中心でした。組織がこれらの情報資産を分析基盤に組み込もうとする中で、これらのデータの品質、信頼性、適切な使用方法に関する重要な疑問が

コネクテッドカーのデータ革命で勝者と敗者を分けるもの

March 11, 2024 シヴ・トリサル、マイク・コーネルによる投稿 in 業界

"よりスマートフォンに近い自動車を作ることが未来です。アップルやすべてのスマートフォン企業が通話を変えたように、私たちも乗り心地を変えようとしています。" - ジム・ファーレイ（フォード・モーターCEO）自動車をスマートフォンに例えたジム・ファーレイの例えは、すべての自動車会社にとっての現実です。現代の自動車は、複数のセンサーモダリティ、150もの電子制御ユニット（ECU）、1億行を超えるコードを通じて、毎日1,000倍以上のデータを生成しています。コネクテッド・ビークルの成長（2030年までに世界で販売される新車の95％）に伴い、コネクテッド・ビークル・データを収益化し、よりパーソナライズされたサービス、付加価値の高いデジタル・オファー、エコシステムの収益化によって差別化を推進することは、すべての自動車会社にとって戦略上不可欠です。コネクテッド・ビークル・データの収益化のパイのサイズは膨大です。 2030年までに、新しいサブスクリプション主導型サービスは、平均して自動車1台あたり年間310ドルの増分経

Veritas: Datavant on Databricks を通じて現実世界のデータを提供

March 7, 2024 ジェイソン・ラボンテによる投稿 in 業界

この投稿は、Veritas Data Researchの最高経営責任者のジェイソン・ラボンテ氏との共同執筆によるものです。ヘルスケアとライフサイエンスの領域では、データは医学のブレークスルーを推進し、患者の転帰を改善するための要となっています。適切な実世界のデータソースを活用することで、医療、研究、製薬組織全体のイノベーションを促進することができます。ガートナー社によると、外部データ共有に取り組んでいるデータとアナリティクスのリーダーは、そうでないリーダーに比べて、測定可能な経済的利益を3倍多く生み出すことができます。死亡率データの重要な役割死亡率データは、治療の有効性、公衆衛生政策、プロトコルの設計に関する深い洞察を提供する、健康分析における重要な基礎です。しかし、保険請求や電子カルテのような従来の臨床データセットでは、このような重要なエンドポイントを捉えることは困難です。このギャップから、患者の転帰を正確に理解するためには、臨床実データ（RWD）を死亡率データセットで補強する必要があります。

KXとDatabricksの統合：資本市場などにおける時系列データ分析の進歩

March 6, 2024 ロマン・オストロフスキー、アンナ・キュイジアによる投稿 in 業界

KXとDatabricksは、資本市場分野向けの時系列分析ソリューションの開発で提携し、クオンツ調査や一時的な取引データ分析など、多くのユースケースをサポートしています。これまで、SQL、Python、Rなどのデータサイエンスや分析のプログラミング言語では、時系列分析が煩雑で時間がかかっていました。 SQLはその人気と強力なクエリ言語にもかかわらず、時系列データの順序（例えば、時間ベースの結合）や以前の状態に関する質問には限界があります。 PythonやR、そしてSparkでさえ、時間分析を実行するには何ページものコードが必要です。これらの限界は、時系列分析に伴う高次元データの課題によってさらに複雑になっています。特にヘッジファンドや機関投資家にとって、このコラボレーションは、KXの専門的な時系列データ処理能力と、Databricksで利用可能な包括的な計算および機械学習フレームワークを組み合わせたものです。このパートナーシップは、時系列データに焦点を当てることで、金融業界向けの定量的・データサイエンス研

大規模言語モデルを用いて常識に沿った商品レコメンデーションを行う

March 5, 2024 アビナシュ・スーリヤルチ、サム・ソーヤー、コルトン・ペルチェ、ブライアン・スミス（Bryan Smith）による投稿 in 業界

詳細とノートブックのダウンロードについては、 LLM Solution Accelerators for Retail をご覧ください。商品の推薦（レコメンデーション）は、現代の顧客体験の中核をなす機能です。ユーザーは以前利用したことのあるサイトに戻ったとき、以前の利用内容に関連するレコメンデーションが表示されることを期待します。ユーザーが特定のアイテムに興味を持ったとき、類似した関連性のある代替品が提案され、自分のニーズに合ったアイテムを見つけられることを期待します。また、商品がカートに入れられると、ユーザーは、全体的な購買体験を完成かつ向上させる追加の商品がレコメンドされることを期待します。このような商品のレコメンデーションが適切に行われれば、買い物がスムーズになるだけでなく、ユーザーは小売店によって認識され、理解されていると感じることができます。商品のレコメンデーションを生成するための様々なアプローチがありますが、現在使用されているレコメンデーションエンジンのほとんどは、小売業者固有の大規模なデ

Coastal Community Bank、Databricksのデータインテリジェンスプラットフォームを用いて充実した金融エコシステムを構築

March 4, 2024 ジゼル・ゴイコチャ、アンナ・キュイジアによる投稿 in 業界

Coastal Community Bank（Coastal）のSVP、Head of Technology Operations and ImplementationのBarb MacLean氏とCavallo TechnologiesのRob Cavallo社長に感謝します。ゴリアテのコミュニティ・バンクとして繁栄ある意味で、コミュニティ・バンクであることがこれほど厳しくなったことはありません。米国では現在、上位15行が業界の預金と資産の大半を支配しており、大手5行で総資産の56 ％を管理しています。さらに、中小銀行に対する規制上の要求も高まっており、大手の競争相手と同じような厳しい資本、報告、マネーロンダリング防止基準に従うことが求められています。 Coastal Community Bank（Coastal）のSVP、テクノロジー・オペレーションおよびインプリメンテーションの責任者であるBarb MacLean氏にとって、その解決策はサービスとしての銀行（BaaS）です。 CoastalがDe

よりスマートな製造：生成AIの合理化におけるガバナンスの役割

March 4, 2024 シヴ・トリサル、ケイトリン・ゴードンによる投稿 in 業界

人工知能（AI）は、企業が生産し、顧客が接するあらゆる製品やサービスに組み込まれるようになるでしょう。生成AIによって、私たちは今、あらゆる企業の競争優位に貢献するデータ & AIイニシアチブへの期待が高まる時代に突入しています。データガバナンスは、企業が競争上の優位性を生み出し、それを維持するために成功するためには、絶対に欠かせないものです。今日のダイナミックな状況において、データガバナンスの重要性を見過ごすことはできません。なぜかというと、優れたAIは優れたデータから生まれるからです。適切なガバナンスがなければ、良いデータを確保することはできません。しかし、データガバナンスには大きな問題があります。「プリンセス・ブライド」で有名なハリウッドのキャラクター、イニゴ・モントーヤから引用します。「データガバナンス...。あなたはこの言葉を使い続けています。私は、それはあなたが思っているような意味ではないと思います！」。これは、データガバナンスという用語があまりに不定形になりすぎて、それが何な