エグゼクティブのためのデータ、アナリティクス、AI変革ガイド 第1回: モダナイゼーションのためのBlueprint
Original Blog : The Executive’s Guide to Data, Analytics and AI Transformation, Part 1: A blueprint for modernization 翻訳: junichi.maruyama 今、組織はこれまで以上に、市場機会や新たなリスクに迅速に適応し、現代のダイナミックな経済において適応し、革新し、繁栄するためのより良い地位を築く必要があります。ビジネスリーダーは、デジタルトランスフォーメーションは、コストを削減し、ビジネス価値を高めながら、ビジネスを実行するための新しいテクノロジー基盤を構築する機会であると捉えています。 しかし、相反する組織の優先順位、レガシーベースの情報システム、バラバラのデータ環境は、その実現を困難にしています。そのため、データ、アナリティクス、AIのエグゼクティブは、最新のデータアーキテクチャを容易に導入・移行できるような包括的な戦略を策定し、実行する必要があります。このブログシリーズでは、ご自身の
Dolly:オープンなモデルで ChatGPT の魔法を民主化
概要 Databricks では、従来のオープンソースの大規模言語モデル(LLM)を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...
Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング
Original Blog : Fine-Tuning Large Language Models with Hugging Face and DeepSpeed 翻訳: junichi.maruyama ChatGPTのセンセーショナルなリリースを受け、大規模言語モデル(LLM)が現在脚光を浴びています。多くの人が、このようなモデルを自分のアプリケーションでどのように活用できるかを考えています。しかし、これは変換器ベースのモデルのいくつかの進歩の一つに過ぎず、他の多くのモデルは、チャットだけでなく、翻訳、分類、要約などのタスクでオープンかつ容易に利用できます。 以前のブログ では、人気のある Hugging Face トランスフォーマーライブラリを通じて、Databricks上でこれらのモデルにアクセスするための基本的な方法を説明しました。 T5 や BERT...
データブリックス上での教師なし外れ値検出
Kakapo( KAH-kə-poh ))は、Databricks上でスケールアップした外れ値検出のための標準APIセットを実装しています。これは外れ値検出アルゴリズムの膨大な PyOD ライブラリと、モデルの追 跡とパッケージングのための MLFlow 、広大で複雑かつ異質な探索空間の探索のための Hyperopt との統合を提供します。 The views expressed in this article are privately held by the author and cannot...
レイクハウス探訪 - Databricksの全貌に迫る
本稿では、Databricksレイクハウスの構成要素を紐解き、それぞれが担う役割や提供機能にディープダイブする。 レイクハウスとは こちらの記事 でも触れているように、レイクハウスはこれまでのデータプラットフォームの課題を解決するために、データウェアハウスとデータレイクの長所を組み合わせた新たなデータプラットフォームである。以下の図に示しているように、レイクハウスではテーブルなどの構造化データ、ログやJSONのような半構造化データ、さらには、画像・音声・テキストのような非構造化データすべてを格納することができ、データウェアハウスを活用して行われていたBIや、データレイクの主なユースケースであるデータサイエンスや機械学習の取り組みなどをすべて一つのプラットフォームで実施することできる。 以降では、Databricksでこのような機能をどのように実現しているのかを説明していく。 レイクハウスのアーキテクチャ ハイレベルなレイクハウスのアーキテクチャ図を以下に示す。一番上にあるグリーンの箱は、ユースケースあるいはペルソ
データ×AIプロジェクトに携わる人々はどのようにDatabricksを活用するのか
数多くの企業が、競争優位性を確保し、イノベーションを促進するためにデータとAIを活用しようとしている。データとAI活用のユースケースやプロジェクトは多岐にわたるが、そのようなプロジェクトに従事する人々のペルソナやスキルセットは共通している。本稿では、データ×AIプロジェクトに従事するのはどのような人たちなのか、彼らはどのような課題を抱えているのかを説明し、Databricksレイクハウスプラットフォームを活用することでどのような価値を得ているのかをサンプルシナリオを通じてデモンストレーションする。 データ×AIプロジェクトとは ビッグデータというキーワードが出現した2010年代以降、データは減るどころか指数関数的に増加しており、その重要性も増していると言える。しかし、一方でそれらのデータを全ての企業が有効に活用できているのかというと、そういう訳でもないのが実情である。 2021年のMIT Tech Review によると、データ戦略に成功している企業は全体の13%である。 このような状況を打破しようと、ここ数年で
Unity Catalogによる分散型データガバナンスと孤立した環境の実現
Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳: junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者(CDO)の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。 その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま
Databricks SQLステートメント実行API - パブリックプレビューを発表
Original Blog : Databricks SQL Statement Execution API – Announcing the Public Preview 翻訳: junichi.maruyama 本日、AWSとAzureで利用可能なDatabricks SQLステートメント実行APIのパブリックプレビューを発表します。 Databricks SQL ウェアハウスにREST APIで接続し、 Databricks Lakehouse...
Databricksワークスペースのディザスターリカバリーの実装
Original: Implementing Disaster Recovery for a Databricks Workspace 翻訳: junichi.maruyama この投稿は Disaster Recovery Overview, Strategies, and Assessment や Disaster Recovery Automation and Tooling...
製造業におけるサイバーセキュリティ
Original Blog : Cybersecurity in Manufacturing 翻訳: junichi.maruyama スマート製造への取り組みが進む中、サイバーセキュリティは製造業者のオペレーショナルリスクプロファイルの中心的存在となっています。Deloitteの 調査 によると、製造業者の48%がこのような運用リスクをスマートファクトリー構想の阻害要因として考えていることが明らかになっています。そのため、製造業におけるサイバーセキュリティ市場は成長態勢にあり、 2027年には298億5000万ドル に達すると予想されています。 Databricksがスポンサーを務めるOmdiaによる最近の製造業調査では、「アナリティクスとAIイニシアチブの導入を遅らせ、さらには阻止している課題は何か」という質問がありました。 サイバーセキュリティの脅威 は、上位2つの回答のうちの1つとして登場し、どちらの回答も44%のスコアを獲得しています(下図参照)。実際、さまざまな調査において、サイバーセキュリティは業界