Databricks ブログ

ページ 60

Databricks SQLステートメント実行API - パブリックプレビューを発表

March 6, 2023 アドリアナ・イスパス、Bogdan Ionut Ghit、Ben Fleis、パール鵜原による投稿 in プラットフォーム

Original Blog : Databricks SQL Statement Execution API – Announcing the Public Preview 翻訳： junichi.maruyama 本日、AWSとAzureで利用可能なDatabricks SQLステートメント実行APIのパブリックプレビューを発表します。 Databricks SQL ウェアハウスにREST APIで接続し、 Databricks Lakehouse...

Databricksワークスペースのディザスターリカバリーの実装

March 3, 2023 Ankit Shah、Lorin Dawson による投稿 in プラットフォーム

Original: Implementing Disaster Recovery for a Databricks Workspace 翻訳: junichi.maruyama この投稿は Disaster Recovery Overview, Strategies, and Assessment や Disaster Recovery Automation and Tooling...

製造業におけるサイバーセキュリティ

February 28, 2023 Lipyeow Lim、Bala Amavasai による投稿 in 業界

Original Blog : Cybersecurity in Manufacturing 翻訳： junichi.maruyama スマート製造への取り組みが進む中、サイバーセキュリティは製造業者のオペレーショナルリスクプロファイルの中心的存在となっています。Deloitteの調査によると、製造業者の48％がこのような運用リスクをスマートファクトリー構想の阻害要因として考えていることが明らかになっています。そのため、製造業におけるサイバーセキュリティ市場は成長態勢にあり、 2027年には298億5000万ドルに達すると予想されています。 Databricksがスポンサーを務めるOmdiaによる最近の製造業調査では、「アナリティクスとAIイニシアチブの導入を遅らせ、さらには阻止している課題は何か」という質問がありました。サイバーセキュリティの脅威は、上位2つの回答のうちの1つとして登場し、どちらの回答も44％のスコアを獲得しています（下図参照）。実際、さまざまな調査において、サイバーセキュリティは業界

DatabricksとApache Spark ClustersにおけるRayのサポートを発表

February 27, 2023 ウェイチェン・シュー、ベン・ウィルソン、Jiajun Yao、Zhe Zhang、Eric Liang、Xiangrui Meng、コーリー・ズマールによる投稿 in エンジニアリングのブログ

Original : Announcing Ray support on Databricks and Apache Spark Clusters 翻訳： junichi.maruyama Ray は、スケーラブルなAIおよびPythonワークロードを実行するための著名なコンピュートフレームワークで、さまざまな分散機械学習ツール、大規模なハイパーパラメータチューニング機能、強化学習アルゴリズム、モデル提供などを提供します。同様に、Apache Spark™は、 Spark MLlib や、 XGBoost , TensorFlow...

Hugging Faceトランスフォーマーのパイプラインを使ったNLPを始めよう

February 5, 2023 Paul Ogilvie による投稿 in エンジニアリングのブログ

Original Blog : Getting started with NLP using Hugging Face transformers pipelines 翻訳： junichi.maruyama 自然言語処理（NLP）の進歩は、企業がテキストデータから価値を引き出すための前例のない機会を解き放ちました。自然言語処理は、テキストの要約、人や場所などの固有名詞の認識、感情分類、テキスト分類、翻訳、質問応答など、幅広い用途に使用できます。多くの場合、大規模なテキストデータセットで事前に訓練された機械学習モデルから、高品質の結果を得ることができます。これらの事前学習済みモデルの多くは、オープンソースで公開されており、無料で使用することができます。 Hugging Face は、これらのモデルの素晴らしいソースの一つであり、彼らの Transformers ライブラリは、モデルを適用し、また自分のデータにも適応させるための使いやすいツールです。また、これらのモデルを自分のデータに合わせて微調整をすることも可能で

コンテキスト内学習のための超高速LLM評価

February 2, 2023 ジェレミー・ドーマンによる投稿 in モザイクリサーチ

MosaicMLを使えば、LLMをコンテキスト内学習タスク（LAMBADA、HellaSwag、PIQAなど）で、他の評価ハーネスよりも何百倍も速く評価することができます。 LAMBADAは、70Bのパラメータモデルに対して、64台のA100 GPUでわずか100秒で評価でき、256台のNVIDIA A100 GPUを使用した場合、1兆2,000億のパラメータモデルの評価に12分もかかりません。大規模言語モデル（LLM）をトレーニングする際、その性能を評価する一般的な方法は、コンテキスト内学習（ICL）タスクを使用することです。これらのタスクでは、モデルの重みを更新することなく、LLMが文を完成させたり、自然言語で出された質問に答えたりする必要があります。モデルは、タスクが何であるかを推測し、タスクがどのように機能するかを理解し、新しい例にどのように適用するかを決定しなければなりません。これらはすべて、プロンプトに含まれる文脈上の手がかりを使用することによって行われます。例えば、あるモデルが次のように

データレイクにライフサイエンスの知識グラフを構築する

January 31, 2023 Michael Sanky、Vishnu Vettrivel、Alex Thomas、アミール・ケルマニによる投稿 in 業界

本投稿はDatabricksとwisecube.aiの共同によるものです。創業者のVishnu Vettrivel、プリンシパル・データサイエンティストのAlex Thomasへの貢献に感謝します。 Original Blog : Building a Life Sciences Knowledge Graph with a Data Lake 翻訳 : motokazu.ishikawa 製薬企業は世界の最も深刻な疾患のいくつかに対して、画期的な医薬品を発見し開発し市販します。研究開発におけるデータドリブンなアプローチは創薬とともに治験での安全管理の成功率も改善します。しかしながら、この改革における主要な障害は、新しいデータが増加するペースに、科学的な情報を全て活用する能力が追いつかないということです。研究開発のデータはしばしば何百万のデータポイントと何千のデータソースから生じます。これには、ゲノミクスやプロテオミクスのようなハイスループットな技術、利用が増加している電子健康記録(EHR)、その他のデジタルデ

集まれ！Legendary Heroes of DATA + AI !! Vol3

January 30, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか？ Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います！！さて、最終回のVol.3 では、日本マイクロソフト中里浩...

Databricks Notebooksのアップグレードを紹介 - 新しいエディタ、Pythonフォーマットなど

January 29, 2023 ウェストン・ハッチンズ、Jim Allen Wallace、Deka Auliya Akbar による投稿 in プラットフォーム

Databricks Notebooksは、データおよびAIプロダクトを構築するすべての人に、シンプルで統一された環境を提供します。本日、Notebooksのエクスペリエンスに関するアップデートを紹介します：オートコンプリートの高速化、シンタックスハイライトの改善、コードの折りたたみなど、より速くコーディングできるようになった新しいエディター。 Blackを使ったPython Code Formatterでコードを読みやすく、レビューしやすく。ノートブック内で選択されたテキストを実行し、デバッグを加速させる新しいノートブックエディター私たちの新しいエディターは、ユーザーにとって、コーディングをより簡単に、より速く、より間違いの少ないものにするための多くの機能を可能にします。IDEからブラウザにシームレスに移行し、同様のユーザーエクスペリエンスにアクセスできるようにしたいと考えています。私たちは、MicrosoftのVS Codeを支えるオープンソースのエディターであるMonacoを採用し、あなたの生活をよ

時系列予測ライブラリ Prophet と Spark との連携

January 25, 2023 Masahiko Kitamura による投稿 in Databricks ブログ

1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe