Databricks ブログ | Databricks Blog

ページ 11

Dolly：オープンなモデルで ChatGPT の魔法を民主化

March 24, 2023 Mike Conover、Matt Hayes、Ankit Mathur、Xiangrui Meng、謝建偉、Jun Wan、Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia による投稿 in Databricks ブログ

概要 Databricks では、従来のオープンソースの大規模言語モデル（LLM）を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...

集まれ！Legendary Heroes of DATA + AI !! Vol3

January 30, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか？ Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います！！さて、最終回のVol.3 では、日本マイクロソフト中里浩...

時系列予測ライブラリ Prophet と Spark との連携

January 25, 2023 Masahiko Kitamura による投稿 in Databricks ブログ

1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe

集まれ！Legendary Heroes of DATA + AI !!

January 16, 2023 Hisae Inoue による投稿 in データ戦略

現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、その動きは日本でも然り。日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Vol.2としてアクセンチュア株式会社様をご紹介します！データブリックスの目指す世界は、私たち単体ではなし得ません！「 Databricks Champion 」の皆様は、共にゴールを共有し、共に走っていく、まさしく、Legendary Heroes of DATA + AI です！！今回は、アクセンチュア株式会社...

コーニングがDatabricks LakehouseプラットフォームでエンドツーエンドのMLを構築した方法

January 4, 2023 Denis Kamotsky による投稿 in Databricks ブログ

“This blog is authored by Denis Kamotsky, Principal Software Engineer at Corning” 翻訳：Junichi Maruyama オリジナルブログはこちらコーニングは約200年にわたり、材料科学における世界有数のイノベーターであり続けています。これらのイノベーションには、トーマス・エジソンの電灯用の最初のガラス電球、最初の低損失光ファイバー、触媒コンバーターを可能にするセルラー基板、モバイル機器用の最初の破損防止カバーガラスなどが含まれます。コーニングでは、限界に挑戦し続けるとともに、機械学習のような破壊的技術を駆使して、より優れた製品を提供し、効率化を推進しています。機械学習による製造工程の効率化高品質な製品を提供することは、世界中の製造拠点における重要な目標であり、MLがその目標達成にどのように貢献できるかを模索し続けています。例えば、乗用車や商用車のエアフィルターや触媒コンバーターに使用されるコーニングのセラミックを製造する工

集まれ！Legendary Heroes of DATA + AI !!

December 6, 2022 Hisae Inoue による投稿 in データ戦略

データブリックスの目指す世界は、私たち単体ではなし得ません！そこで、共にゴールを共有し、共に走っていく皆様に向けて「 Databricks Champion 」というプログラムを設けております。現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、日本でもその動きは盛り上がってきており、Databricks Championが増えてきています。本ブログでは、難関を突破し、晴れてDatabricks Championになられた4名の方に、Databricks Championを目指したきっかけやこれからの思いについて、3回に分けてご紹介したいと思います。＜今回ご紹介する Legendary Heroes of DATA＋AI! > [Vol.1] 株式会社NTT データ　　　斎藤祐希様、洪...

金融機関 TD Bank におけるクラウド化 - データ環境のモダナイゼーション事例

May 20, 2022 中井淳太、Jonathan Hollander による投稿 in Databricks ブログ

1955 年以来、TD Bank グループは、変化する世界において成功する自信を顧客とコミュニティに提供することを目指してきました。10 年が経過するごとに要求は厳しく、複雑さは増していますが、TD は一貫してこの課題に取り組んでいます。このブログでは、Databricks 金融サービス＆サステナビリティ部門 GTM グローバルヘッドのジュンタ・ナカイ（Junta Nakai）が、TD Bank エンタープライズデータテクノロジープラットフォーム部門 VP のジョナサン・ホランダー（Jonathan Hollander）氏に伺った TD における技術変革の事例をインタビュー形式でご紹介します。顧客体験の向上を支援するために分析機能を強化するよう設計された Delta Lake と Azure クラウドによる新しいモダンデータ資産への移行理由に焦点を当てています。...

J&J 社におけるデータの民主化によるサプライチェーン最適化の事例

April 25, 2022 Mrunal Saraiya による投稿 in 導入事例

本ブログは、ジョンソン・エンド・ジョンソン社の先端技術（データ、インテリジェントオートメーション、先端技術インキュベーション）部門シニアディレクター、 Mrunal Saraiya 氏の執筆によるゲストブログです。ジョンソン・エンド・ジョンソン（J&J）は、グローバルな消費財および医薬品プロバイダーの中核的企業として 150 年以上にわたり、世界中の企業、患者、医師、人々にサービスを提供しています。私たちは、生命を維持する医療機器やワクチンをはじめ、市販薬、処方箋薬（これらの創薬に必要なツールや資源）など、市場に送り出す全てのものを入手可能な状態にし、多様な商品の品質、保管、お客様へのタイムリーな配送の一貫性を保証しなければなりません。製品やサービスをどのように地域社会に提供するかは、私たちの事業戦略の中核をなすものです。特に、消費者が製品に効果的にアクセスして使用できるようにするために、製品の配送時間、場所の厳守、公正な販売価格の保証を重要視しています。市場のサプライチェーンには、以前から物流に関す

レイクハウスによるデータの民主化がアムジェンの医薬品開発・提供を加速

March 22, 2022 Jaison Dominic、Kerby Johnson による投稿 in 導入事例

この記事は、アムジェン（Amgen）社のプロダクトオーナー Jaison Dominic 氏と、ディスティングイッシュドソフトウェアエンジニア Kerby Johnson 氏によるゲスト執筆記事です。世界最大の独立系バイオテクノロジー企業であるアムジェンは、長い間、イノベーションの代名詞とされてきました。40 年にわたり、新しい医薬品製造プロセスを開拓し、命を救う医薬品を開発し、世界中の何百万人もの人々の生活にプラスの影響を及ぼしてきました。患者さんに最高のサービスを提供するという使命を果たし続けるために、私たちは最近、完全なデジタル変革という新たなイノベーションのジャーニーに乗り出しました。研究開発の生産性向上からサプライチェーンや商品化の最適化まで、ビジネス全体の成果を上げるためのデータ活用を再考する過程で、データチームが解決しようとしている問題の種類がここ数年で劇的に変化していることがすぐに明らかになりました。さらに、これらの問題は、もはやスキルセットや部門、機能によって隔離されているわけではありま

Databricks と同等の価格性能を持つという Snowflake の主張に対する反論

November 16, 2021 モスタファ・モクタール、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in Databricks ブログ

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、データウェアハウスの公式世界記録を更新したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとしてオンラインで公開されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター（BSC）によるベンチマークテストの結果を共有し、Databricks SQL が競合...