Databricks ブログ

ページ 59

機械学習で母親を助ける：CareSourceはハイリスク妊娠のヘルスケア改善のためにどのようにMLOpsを活用したか

April 4, 2023 Chengyin Eng、Russ Scoville、Arpit Gupta、Alvaro Aleman による投稿 in エンジニアリングのブログ

このブログ投稿はCareSourceのRuss Scoville (Vice President of Enterprise Data Services)、Arpit Gupta (Director of Predictive Analytics and Data Science)、and Alvaro Aleman (Senior Data Scientist) との共同によるものです。 Original...

製造業向けレイクハウス

April 3, 2023 シヴ・トリサル、Sam Steiny、Bala Amavasai による投稿 in 業界

Original Blog : The Lakehouse for Manufacturing 翻訳： junichi.maruyama あらゆる業界が、生成的AI、データ共有、生産性、予測分析といったトピックについてどう考えるかが問われています。しかし、これは製造業において特に何を意味するのでしょうか？なぜこのようなシフトが重要なのでしょうか？なぜ、未来がそれに左右されるのでしょうか？製造業は、次のSKU、機械、自動車、飛行機といった主要な生産単位を効率的に提供するだけでなく、より高い成長性、より安定した収益源、外部ショックに対するより高い回復力といった、より高い拡張性を示すテクノロジー対応のビジネスを提供することに常に焦点を当て、ビジネスを再構築しています。この業界は膨大な量のデータ（小売、メディア、金融サービスなどの業界の2～4倍）を生成し、このデータは今後5年間で200～500％と推定される指数関数的な速度で成長しています。この膨大なデータの増加は、コネクテッドワーカー、ビル、車両、工場から発せられる

Visual Studio CodeからDatabricks上でSQLクエリを実行する

March 29, 2023 ビラル・アスラム、Fabian Jakobs、シャント・ホヴセピアンによる投稿 in プラットフォーム

Original Blog : Run SQL Queries on Databricks From Visual Studio Code 翻訳： junichi.maruyama 本日、人気のSQLTools拡張機能のプレビュードライバを使用して、Visual Studio CodeからDatabricks上のSQLクエリを実行できるようになったことをお知らせします。このプレビュー・リリースは、先日公開された VS CodeのDatabricks拡張機能を補完するもので、これによりユーザーはDatabricksが管理するコンピュート上でローカルに開発したコードを同期して実行することができます。 Databricks...

エグゼクティブのためのデータ、アナリティクス、AI変革ガイド　第1回：モダナイゼーションのためのBlueprint

March 28, 2023 クリス・ダゴスティーノ、Mimi Park、Usman Zubair による投稿 in データ戦略

Original Blog : The Executive’s Guide to Data, Analytics and AI Transformation, Part 1: A blueprint for modernization 翻訳： junichi.maruyama 今、組織はこれまで以上に、市場機会や新たなリスクに迅速に適応し、現代のダイナミックな経済において適応し、革新し、繁栄するためのより良い地位を築く必要があります。ビジネスリーダーは、デジタルトランスフォーメーションは、コストを削減し、ビジネス価値を高めながら、ビジネスを実行するための新しいテクノロジー基盤を構築する機会であると捉えています。しかし、相反する組織の優先順位、レガシーベースの情報システム、バラバラのデータ環境は、その実現を困難にしています。そのため、データ、アナリティクス、AIのエグゼクティブは、最新のデータアーキテクチャを容易に導入・移行できるような包括的な戦略を策定し、実行する必要があります。このブログシリーズでは、ご自身の

Dolly：オープンなモデルで ChatGPT の魔法を民主化

March 24, 2023 Mike Conover、Matt Hayes、Ankit Mathur、Xiangrui Meng、謝建偉、Jun Wan、Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia による投稿 in Databricks ブログ

概要 Databricks では、従来のオープンソースの大規模言語モデル（LLM）を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...

Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング

March 19, 2023 ショーン・オーウェンによる投稿 in エンジニアリングのブログ

Original Blog : Fine-Tuning Large Language Models with Hugging Face and DeepSpeed 翻訳： junichi.maruyama ChatGPTのセンセーショナルなリリースを受け、大規模言語モデル（LLM）が現在脚光を浴びています。多くの人が、このようなモデルを自分のアプリケーションでどのように活用できるかを考えています。しかし、これは変換器ベースのモデルのいくつかの進歩の一つに過ぎず、他の多くのモデルは、チャットだけでなく、翻訳、分類、要約などのタスクでオープンかつ容易に利用できます。以前のブログでは、人気のある Hugging Face トランスフォーマーライブラリを通じて、Databricks上でこれらのモデルにアクセスするための基本的な方法を説明しました。 T5 や BERT...

データブリックス上での教師なし外れ値検出

March 18, 2023 Iliya Kostov、ミロシュ・コリック、Michele Caputo による投稿 in エンジニアリングのブログ

Kakapo（ KAH-kə-poh )）は、Databricks上でスケールアップした外れ値検出のための標準APIセットを実装しています。これは外れ値検出アルゴリズムの膨大な PyOD ライブラリと、モデルの追跡とパッケージングのための MLFlow 、広大で複雑かつ異質な探索空間の探索のための Hyperopt との統合を提供します。 The views expressed in this article are privately held by the author and cannot...

レイクハウス探訪 - Databricksの全貌に迫る

March 10, 2023 Takaaki Yayoi による投稿 in プラットフォーム

本稿では、Databricksレイクハウスの構成要素を紐解き、それぞれが担う役割や提供機能にディープダイブする。レイクハウスとはこちらの記事でも触れているように、レイクハウスはこれまでのデータプラットフォームの課題を解決するために、データウェアハウスとデータレイクの長所を組み合わせた新たなデータプラットフォームである。以下の図に示しているように、レイクハウスではテーブルなどの構造化データ、ログやJSONのような半構造化データ、さらには、画像・音声・テキストのような非構造化データすべてを格納することができ、データウェアハウスを活用して行われていたBIや、データレイクの主なユースケースであるデータサイエンスや機械学習の取り組みなどをすべて一つのプラットフォームで実施することできる。以降では、Databricksでこのような機能をどのように実現しているのかを説明していく。レイクハウスのアーキテクチャハイレベルなレイクハウスのアーキテクチャ図を以下に示す。一番上にあるグリーンの箱は、ユースケースあるいはペルソ

データ×AIプロジェクトに携わる人々はどのようにDatabricksを活用するのか

March 9, 2023 Takaaki Yayoi による投稿 in プラットフォーム

数多くの企業が、競争優位性を確保し、イノベーションを促進するためにデータとAIを活用しようとしている。データとAI活用のユースケースやプロジェクトは多岐にわたるが、そのようなプロジェクトに従事する人々のペルソナやスキルセットは共通している。本稿では、データ×AIプロジェクトに従事するのはどのような人たちなのか、彼らはどのような課題を抱えているのかを説明し、Databricksレイクハウスプラットフォームを活用することでどのような価値を得ているのかをサンプルシナリオを通じてデモンストレーションする。データ×AIプロジェクトとはビッグデータというキーワードが出現した2010年代以降、データは減るどころか指数関数的に増加しており、その重要性も増していると言える。しかし、一方でそれらのデータを全ての企業が有効に活用できているのかというと、そういう訳でもないのが実情である。 2021年のMIT Tech Review によると、データ戦略に成功している企業は全体の13%である。このような状況を打破しようと、ここ数年で

Unity Catalogによる分散型データガバナンスと孤立した環境の実現

March 8, 2023 Max Nienu、ゼアシャン・パッパ、ポール・ルーム、サチン・タクールによる投稿 in ソリューション

Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳： junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者（CDO）の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま