Databricks ブログ

ページ 46

レイクハウスからデータを活性化： Databricks VenturesがHightouchに投資した理由

August 30, 2023 アンドリュー・ファーガソンによる投稿 in Databricks ブログ

翻訳：Saki Kitaoka. - Original Blog Link 現代の企業がデータへの投資を倍増させていることは周知の事実です。データへの投資は、あらゆる業種・業界の企業にとって競争力をもたらす深い顧客インサイトを明らかにするものです。私たちは、レイクハウスが組織の中心に位置し、企業がビジネスチームの日常業務でこれらのインサイトを活用できるようになる未来を確信しています。そのため、Databricks Venturesは本日、データ活性化プラットフォームのリーディングカンパニーであるHightouchへの戦略的投資( strategic investment in Hightouch )を発表しました。この投資は、Hightouchの最近の $38 million funding round の一部であり、私たちのパートナーシップを拡大し、 the Databricks Lakehouse 上でネイティブに構築された...

LoRAによる効率的なファインチューニング：大規模言語モデルの最適パラメータ選択ガイド

August 29, 2023 アビナッシュ・スーリヤラッチによる投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link ニューラルネットワークベースの技術や大規模言語モデル（LLM）研究の急速な進歩に伴い、企業は価値生成のためのAIアプリケーションにますます関心を寄せている。これらの企業は、分類、要約、シーケンス間タスク、制御されたテキスト生成など、テキスト関連の課題に対処するために、生成および非生成の両方で、さまざまな機械学習アプローチを採用している。組織はサードパーティのAPIを選択することもできるが、独自のデータでモデルを微調整することで、ドメイン固有の適切な結果を提供し、安全な方法でさまざまな環境に展開可能な、費用対効果の高い独立したソリューションを可能にする。ファインチューニングの戦略を選択する際には、効率的なリソース利用と費用対効果を確保することが重要です。このブログでは、このようなパラメータ効率的な手法の中で、間違いなく最も一般的で効果的なバリエーションであるLoRA（Low Rank Adaptation）について、特にQLoRA

大規模言語モデル（LLM）を用いた商品レビューの自動分析

August 28, 2023 Ali Sezer、ショーン・オーウェン、Sam Steiny、ブライアン・スミス（Bryan Smith）による投稿 in 業界

Check out our LLM Solution Accelerators for Retail for more details and to download the notebooks. 翻訳：Junichi Maruyama. - Original Blog Link 会話AIはここ数カ月で多くのメディアの注目を集めたが、大規模言語モデル（LLM）の能力は会話のやり取りをはるかに超えている。クエリ応答、要約、分類、検索など、あまり目立たない機能にこそ、多くの組織が労働力を強化し、顧客体験をレベルアップするための直接的な機会を見出している。...

因果機械学習による販促オファーの最適化

August 28, 2023 ルイス・モロス、コーリー・アブシャー、吉松龍太による投稿 in 業界

翻訳：Junichi Maruyama. - Original Blog Link 多くの企業は、取引を成立させたり、契約を更新させたり、サービスを購入させたりするために、顧客にプロモーションのオファーを提供している。このようなインセンティブは、販売者にとっては、購入と引き換えに顧客に提供される収益やサービスの面でコストがかかる。しかし、適切に適用されれば、取引を確実に成立させ、購入規模を拡大させることもできる。しかし、インセンティブオファーを受け取ったすべてのアカウントが同じように反応するわけではありません。不適切に適用された販促オファーは、取引の規模や速度に何の影響も与えないかもしれないし、不必要にマージンを損なうかもしれない。顧客にインセンティブを提案する組織は、オファーが取引完了の確率に与える影響を予測し、それが取引の純収益に与える影響を理解することが重要である。プロモーション・オファーを最適化することで、より良い結果を導くことができるあるソフトウェア会社が、営業チームが異なる提案に対してどのようにオ

AIデータの簡素化

August 28, 2023 マニ・パルケ、クレイグ・ワイリー、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia による投稿 in プラットフォーム

翻訳：Junichi Maruyama. - Original Blog Link どのデータサイエンス組織と話しても、高品質なAIモデルを構築するための最大の課題はデータへのアクセスと管理であると、ほぼ全員が口を揃えて言うだろう。長年にわたり、実務家は実験と開発を加速させるために様々なテクノロジーと抽象化を利用してきた。ここ数年、フィーチャーストアは、機械学習のためにデータを整理し準備する方法として、実務家の間でますます普及している。2022年初頭、Databricksはフィーチャーストアの一般提供を開始しました。この夏、Databricks Unity Catalogのネイティブ機能としてフィーチャーエンジニアリングと管理を導入できることを嬉しく思います。これは、AIデータをよりシンプルに管理する方法の大きな進化を意味します。この進化は、フィーチャー管理とクラス最高のデータカタログを一体化させ、フィーチャーを作成し、それらを使用してモデルをトレーニングし、サービスを提供するプロセスを簡素化し、安全にします。

MapInPandasとDelta Live Tablesで一般的でないファイル形式を大規模に処理する

August 24, 2023 TJ Cycyota による投稿 in 業界

翻訳：Junichi Maruyama. - Original Blog Link 様々なファイル形式最新のデータエンジニアリングの世界では、 Databricks Lakehouse Platform は信頼性の高いストリーミングおよびバッチ data pipelines の構築プロセスを簡素化します。しかし、曖昧なファイル形式や一般的でないファイル形式を扱うことは、Lakehouseへのデータ取り込みにおいて依然として課題となっています。データを提供する上流のチームは、データの保存と送信方法を決定するため、組織によって標準が異なります。例えば、データエンジニアは、スキーマの解釈が自由なCSVや、ファイル名に拡張子がないファイル、独自のフォーマットでカスタムリーダーが必要なファイルなどを扱わなければならないことがあります。このデータをParquetで取得できないかとリクエストするだけで問題が解決することもあれば、パフォーマンスの高いパイプラインを構築するために、よりクリエイティブなアプローチが必要になることも

MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する

August 24, 2023 Kasey Uhlenhuth、Xiangrui Meng、ハゲイ・ルペスコ、ショーン・オーウェン、コーリー・ズマール、リャン・チャン、イナ・コレワ、ウラジミール・コロフスキー、Arpit Jasapara による投稿 in データサイエンス・ML

翻訳：Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG（Retrieval Augmented Generation）アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI（ Databricks Model Serving 経由）、プロプライエ

集まれ！Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 5として、前回のVol4 に引き続き株式会社ナレッジコミュニケーション様から山川将也様をご紹介します。 —- 以前にご紹介したLegendary...

意外に知られていないDatabricksワークフローの活用方法

August 6, 2023 Takaaki Yayoi による投稿 in データエンジニアリング

Databricksには Databricksワークフローという機能があります。 Databricksノートブックで開発したロジックを簡単にスケジュール処理にすることができます。しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

構造化ストリーミングにおける複数のステートフルオペレーター

August 6, 2023 Angela Chu、イム・ジョンテクによる投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse をストリーミングに最適なプラットフォームとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ