メインコンテンツへジャンプ
<
ページ 58
>

DatabricksとApache Spark ClustersにおけるRayのサポートを発表

Original : Announcing Ray support on Databricks and Apache Spark Clusters 翻訳: junichi.maruyama Ray は、スケーラブルなAIおよびPythonワークロードを実行するための著名なコンピュートフレームワークで、さまざまな分散機械学習ツール、大規模なハイパーパラメータチューニング機能、強化学習アルゴリズム、モデル提供などを提供します。同様に、Apache Spark™は、 Spark MLlib や、 XGBoost , TensorFlow...

Hugging Faceトランスフォーマーのパイプラインを使ったNLPを始めよう

February 5, 2023 Paul Ogilvie による投稿 in
Original Blog : Getting started with NLP using Hugging Face transformers pipelines 翻訳: junichi.maruyama 自然言語処理(NLP)の進歩は、企業がテキストデータから価値を引き出すための前例のない機会を解き放ちました。自然言語処理は、テキストの要約、人や場所などの固有名詞の認識、感情分類、テキスト分類、翻訳、質問応答など、幅広い用途に使用できます。多くの場合、大規模なテキストデータセットで事前に訓練された機械学習モデルから、高品質の結果を得ることができます。これらの事前学習済みモデルの多くは、オープンソースで公開されており、無料で使用することができます。 Hugging Face は、これらのモデルの素晴らしいソースの一つであり、彼らの Transformers ライブラリは、モデルを適用し、また自分のデータにも適応させるための使いやすいツールです。また、これらのモデルを自分のデータに合わせて微調整をすることも可能で

コンテキスト内学習のための超高速LLM評価

February 2, 2023 ジェレミー・ドーマン による投稿 in
MosaicMLを使えば、LLMをコンテキスト内学習タスク(LAMBADA、HellaSwag、PIQAなど)で、他の評価ハーネスよりも何百倍も速く評価することができます。 LAMBADAは、70Bのパラメータモデルに対して、64台のA100 GPUでわずか100秒で評価でき、256台のNVIDIA A100 GPUを使用した場合、1兆2,000億のパラメータモデルの評価に12分もかかりません。 大規模言語モデル(LLM)をトレーニングする際、その性能を評価する一般的な方法は、コンテキスト内学習(ICL)タスクを使用することです。 これらのタスクでは、モデルの重みを更新することなく、LLMが文を完成させたり、自然言語で出された質問に答えたりする必要があります。 モデルは、タスクが何であるかを推測し、タスクがどのように機能するかを理解し、新しい例にどのように適用するかを決定しなければなりません。これらはすべて、プロンプトに含まれる 文脈上の 手がかりを使用することによって行われます。 例えば、あるモデルが次のように

データレイクにライフサイエンスの知識グラフを構築する

本投稿はDatabricksとwisecube.aiの共同によるものです。創業者のVishnu Vettrivel、プリンシパル・データサイエンティストのAlex Thomasへの貢献に感謝します。 Original Blog : Building a Life Sciences Knowledge Graph with a Data Lake 翻訳 : motokazu.ishikawa 製薬企業は世界の最も深刻な疾患のいくつかに対して、画期的な医薬品を発見し開発し市販します。研究開発におけるデータドリブンなアプローチは創薬とともに治験での安全管理の成功率も改善します。しかしながら、この改革における主要な障害は、新しいデータが増加するペースに、科学的な情報を全て活用する能力が追いつかないということです。 研究開発のデータはしばしば何百万のデータポイントと何千のデータソースから生じます。これには、ゲノミクスやプロテオミクスのようなハイスループットな技術、利用が増加している電子健康記録(EHR)、その他のデジタルデ

集まれ!Legendary Heroes of DATA + AI !! Vol3

January 30, 2023 Hisae Inoue による投稿 in
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか? Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います!! さて、最終回のVol.3 では、 日本マイクロソフト 中里 浩...

Databricks Notebooksのアップグレードを紹介 - 新しいエディタ、Pythonフォーマットなど

Databricks Notebooksは、データおよびAIプロダクトを構築するすべての人に、シンプルで統一された環境を提供します。本日、Notebooksのエクスペリエンスに関するアップデートを紹介します: オートコンプリートの高速化、シンタックスハイライトの改善、コードの折りたたみなど、より速くコーディングできるようになった新しいエディター。 Blackを使ったPython Code Formatterでコードを読みやすく、レビューしやすく。 ノートブック内で選択されたテキストを実行し、デバッグを加速させる 新しいノートブックエディター 私たちの新しいエディターは、ユーザーにとって、コーディングをより簡単に、より速く、より間違いの少ないものにするための多くの機能を可能にします。IDEからブラウザにシームレスに移行し、同様のユーザーエクスペリエンスにアクセスできるようにしたいと考えています。私たちは、MicrosoftのVS Codeを支えるオープンソースのエディターであるMonacoを採用し、あなたの生活をよ

時系列予測ライブラリ Prophet と Spark との連携

January 25, 2023 Masahiko Kitamura による投稿 in
1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe

集まれ!Legendary Heroes of DATA + AI !!

January 16, 2023 Hisae Inoue による投稿 in
現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、その動きは日本でも然り。日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Vol.2としてアクセンチュア株式会社 様をご紹介します! データブリックスの目指す世界は、私たち単体ではなし得ません! 「 Databricks Champion 」の皆様は、共にゴールを共有し、共に走っていく、まさしく、Legendary Heroes of DATA + AI です!! 今回は、 アクセンチュア株式会社...

コーニングがDatabricks LakehouseプラットフォームでエンドツーエンドのMLを構築した方法

January 4, 2023 Denis Kamotsky による投稿 in
“This blog is authored by Denis Kamotsky, Principal Software Engineer at Corning” 翻訳:Junichi Maruyama オリジナルブログは こちら コーニングは約200年にわたり、材料科学における世界有数のイノベーターであり続けています。これらのイノベーションには、トーマス・エジソンの電灯用の最初のガラス電球、最初の低損失光ファイバー、触媒コンバーターを可能にするセルラー基板、モバイル機器用の最初の破損防止カバーガラスなどが含まれます。コーニングでは、限界に挑戦し続けるとともに、機械学習のような破壊的技術を駆使して、より優れた製品を提供し、効率化を推進しています。 機械学習による製造工程の効率化 高品質な製品を提供することは、世界中の製造拠点における重要な目標であり、MLがその目標達成にどのように貢献できるかを模索し続けています。例えば、乗用車や商用車のエアフィルターや触媒コンバーターに使用されるコーニングのセラミックを製造する工

Community Editionで始めるDatabricks

December 27, 2022 Masahiko Kitamura による投稿 in
Databricksはあらゆるデータ・分析・データサイエンスのワークロードに対応可能なオープンかつシンプルな Lakehouse を提供しています。そして、Databricksではその機能を無償でお試しいただけるよう、2通りの方法を用意しております。 2週間の無償トライアル: Databricksのフル機能をお試しいただけます。 Community Edition: 機能が限定されますが、期限なし・無償でご利用いただけます。 このブログでは、後者のCommunity Editionを使用したDatabricksの始め方について説明します。 Community Editionの機能と制限 Community Editionでは、Databricksのフルバージョンの機能に対して以下の制限があります。 作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみ ワークスペースに追加できるユーザー数は最大3名まで クラスターのリージョンはus-westのみ 使用できない機能 ジョブのスケジュール