データサイエンス・ML

ページ 5

集まれ！Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 5として、前回のVol4 に引き続き株式会社ナレッジコミュニケーション様から山川将也様をご紹介します。 —- 以前にご紹介したLegendary...

MLflow AI Gatewayの発表

July 25, 2023 Arpit Jasapara、ベン・ウィルソン、コーリー・ズマール、Harutaka Kawamura、ミンギュ・リー、ウラジミール・コロフスキー、Zhe Wang による投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link 大規模言語モデル（LLM）は、SQLウェアハウスに保存されたテキストデータのセンチメント分析から、製品に関するニュアンスの異なる質問に回答するリアルタイムのチャットボットの導入まで、ビジネス価値を提供する幅広い潜在的なユースケースを解き放ちます。しかし、これらのアプリケーションのために強力なSaaSやオープンソースのLLMへのアクセスを民主化するには、セキュリティ、コスト、データ関連のさまざまな課題が伴います。例えば、企業全体で SaaS LLM API トークンを効果的に管理するという具体的な課題を考えてみよう：チームがAPIトークンをプレーンテキストとして通信に貼り付けることによるセキュリティの問題共有キーがアプリケーションのクラッシュやレート制限の乱用によるコストのピークにつながるというコストの問題各チームがガードレールなしで独自のAPIトークンを管理することによるガバナンスの問題これらの課題は、組織がイノベーシ

集まれ！Legendary Heroes of DATA + AI !! Vol 4　

June 28, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 4として、株式会社ナレッジコミュニケーション小山翼様をご紹介します。 —- 以前にご紹介したLegendary Heroes of...

Databricks SQL AI Functionsで大規模に顧客レビューに対して行動する

May 9, 2023 Vinny Vijeyakumaar による投稿 in エンジニアリングのブログ

Original : Actioning Customer Reviews at Scale with Databricks SQL AI Functions 翻訳： junichi.maruyama スーザンは毎朝、メッセージの嵐にさらされ、何から手をつけたらいいのかわからない！スーザンは、世界的な小売企業のカスタマーサクセススペシャリストです。彼女の主な目的は、顧客が問題に遭遇したときに、必ず満足し、個人的なサービスを受けられるようにすることです。一晩で、ウェブサイト、アプリ、ソーシャルメディアへの投稿、電子メールなど、複数のチャネルで何百ものレビューやフィードバックが寄せられるようになりました。スーザンの1日の始まりは、これらのシステムにそれぞれログインし、同僚がまだ収集していないメッセージを拾い上げることから始まります。次に、これらのメッセージの意味を理解し、対応する必要があるものを特定し、お客さまへの回答を作成する必要があります。なぜなら、メッセージの形式はさまざまで、お客さまはそれぞれ独自のスタイル

Databricks上のPyTorch - Spark PyTorch Distributor の紹介

April 19, 2023 ブライアン・ロー、リスウィック・エディガ・ラカムサニによる投稿 in エンジニアリングのブログ

Original Blog : PyTorch on Databricks - Introducing the Spark PyTorch Distributor 翻訳： junichi.maruyama 背景と動機ディープラーニングのアルゴリズムは複雑で、トレーニングに時間がかかりますが、これらのアルゴリズムが実現する価値のために、研究室から生産現場へと急速に移行しつつあります。学習済みのモデルを使用して微調整する場合でも、ネットワークをゼロから構築する場合でも、学習時のメモリと計算負荷はすぐにボトルネックとなります。このような制約を克服するための手段として、一般的な最初の防御策は、分散学習を活用することです。Tensorflowには spark-tensorflow-distributor がありますが、PyTorchには同等のものがありませんでした。 Apache Sparkクラスタでの分散PyTorchトレーニングを簡素化するTorchDistributorライブラリをようやく発表することができました。

機械学習を向上させる合成データ

April 11, 2023 ショーン・オーウェンによる投稿 in エンジニアリングのブログ

Original Blog : Synthetic Data for Better Machine Learning 翻訳： junichi.maruyama この1年で最も話題になった、 ChatGPT や DALL-E のような生成AIの進化を試したことがある人も多いでしょう。これらのツールは、複雑なデータを消費し、より多くのデータを生成することで、驚くほど知的なもののように感じられるのです。これらやその他の新しいアイデア（ diffusion models 、 generative adversarial networks 、GAN）は、遊んでみると楽しく、恐ろしいとさえ感じます。...

機械学習で母親を助ける：CareSourceはハイリスク妊娠のヘルスケア改善のためにどのようにMLOpsを活用したか

April 4, 2023 Chengyin Eng、Russ Scoville、Arpit Gupta、Alvaro Aleman による投稿 in エンジニアリングのブログ

このブログ投稿はCareSourceのRuss Scoville (Vice President of Enterprise Data Services)、Arpit Gupta (Director of Predictive Analytics and Data Science)、and Alvaro Aleman (Senior Data Scientist) との共同によるものです。 Original...

Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング

March 19, 2023 ショーン・オーウェンによる投稿 in エンジニアリングのブログ

Original Blog : Fine-Tuning Large Language Models with Hugging Face and DeepSpeed 翻訳： junichi.maruyama ChatGPTのセンセーショナルなリリースを受け、大規模言語モデル（LLM）が現在脚光を浴びています。多くの人が、このようなモデルを自分のアプリケーションでどのように活用できるかを考えています。しかし、これは変換器ベースのモデルのいくつかの進歩の一つに過ぎず、他の多くのモデルは、チャットだけでなく、翻訳、分類、要約などのタスクでオープンかつ容易に利用できます。以前のブログでは、人気のある Hugging Face トランスフォーマーライブラリを通じて、Databricks上でこれらのモデルにアクセスするための基本的な方法を説明しました。 T5 や BERT...

データブリックス上での教師なし外れ値検出

March 18, 2023 Iliya Kostov、ミロシュ・コリック、Michele Caputo による投稿 in エンジニアリングのブログ

Kakapo（ KAH-kə-poh )）は、Databricks上でスケールアップした外れ値検出のための標準APIセットを実装しています。これは外れ値検出アルゴリズムの膨大な PyOD ライブラリと、モデルの追跡とパッケージングのための MLFlow 、広大で複雑かつ異質な探索空間の探索のための Hyperopt との統合を提供します。 The views expressed in this article are privately held by the author and cannot...

Hugging Faceトランスフォーマーのパイプラインを使ったNLPを始めよう

February 5, 2023 Paul Ogilvie による投稿 in エンジニアリングのブログ

Original Blog : Getting started with NLP using Hugging Face transformers pipelines 翻訳： junichi.maruyama 自然言語処理（NLP）の進歩は、企業がテキストデータから価値を引き出すための前例のない機会を解き放ちました。自然言語処理は、テキストの要約、人や場所などの固有名詞の認識、感情分類、テキスト分類、翻訳、質問応答など、幅広い用途に使用できます。多くの場合、大規模なテキストデータセットで事前に訓練された機械学習モデルから、高品質の結果を得ることができます。これらの事前学習済みモデルの多くは、オープンソースで公開されており、無料で使用することができます。 Hugging Face は、これらのモデルの素晴らしいソースの一つであり、彼らの Transformers ライブラリは、モデルを適用し、また自分のデータにも適応させるための使いやすいツールです。また、これらのモデルを自分のデータに合わせて微調整をすることも可能で