エンジニアリングのブログ

ページ 7

Databricks Vector Search パブリックプレビューのご紹介

December 7, 2023 アキル・グプタ、セルゲイ・ツァレフ、エリック・ピーターによる投稿 in エンジニアリングのブログ

昨日発表した RAG(Retrieval Augmented Generation )に続き、本日、Databricks Vector Searchのパブリックプレビューを発表します。6月に開催されたData + AI Summitでは、限られたお客様を対象としたプライベートプレビューを発表しましたが、今回はすべてのお客様にご利用いただけるようになりました。Databricks Vector Searchは、PDF、Officeドキュメント、Wikiなどの非構造化ドキュメントに対する類似検索を通じて、開発者がRAG（Retrieval Augmented Generation）や生成AIアプリケーションの精度を向上させることを可能にします。Vector Search は Databricks Data Intelligence Platform の一部であり、RAG およびジェネレーティブ...

Databricksで高品質のRAGアプリケーションを作成する

December 6, 2023 Patrick Wendell（パトリック・ウェンデル）、Hanlin Tang による投稿 in お知らせ

RAG（Retrieval-Augmented-Generation ）は、独自のリアルタイムデータを LLM（Large Language Model）アプリケーションに組み込む強力な方法として、急速に台頭してきた。本日Databricksユーザーが企業データを使用して高品質な本番LLMアプリケーションを構築するためのRAGツール群を発表できることを嬉しく思う。 LLMは、新しいアプリケーションを迅速にプロトタイプ化する能力において、大きなブレークスルーをもたらした。しかし、RAGアプリケーションを構築している何千もの企業と仕事をした結果、彼らの最大の課題は、これらのアプリケーションを本番で用いることができる品質にすることであることがわかった。顧客向けアプリケーションに要求される品質基準を満たすためには、AIの出力は正確で、最新で、そして企業のコンテキストを認識し、安全でなければならない。高品質なRAGアプリケーションを構築するためには、開発者はデータとモデル出力の品質を理解するための豊富なツール

AI生成ドキュメンテーションのためにオーダーメイドLLMを作成する

November 21, 2023 Matthew Hayes、張宏毅、タオ・フェン、ザヒーラ・ヴァラニ、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

これは、大規模言語モデル（LLM）を使用して、Unityカタログのテーブルとカラムのドキュメントを自動的に生成するものです。私たちは、この機能がお客様から好評をいただいていることに身の引き締まる思いです。現在、 Databricksのテーブルメタデータ更新の80％以上がAI支援によるものです。このブログポストでは、既製のSaaSベースのLLMを使用したハッカソンプロトタイピングから、より良く、より速く、より安いオーダーメイドのLLMの作成まで、この機能を開発した私たちの経験を紹介します。この新しいモデルの開発には、2人のエンジニア、1ヶ月、1,000ドル未満の計算コストしかかかりませんでした(！) 私たちは、これらの学習がGenAIの幅広いユースケースに当てはまると考えているので、参考にしていただければ幸いです。さらに重要なのは、オープンソースLLMの急速な進歩を利用できるようになったことです。 AIが作成した文書とは？各データ・プラットフォームの中心には、データセット（多くの場合テーブル形式）の

Spark ConnectにおけるPythonの依存関係の管理方法

November 13, 2023 Hyukjin Kwon、鄭瑞鳳による投稿 in エンジニアリングのブログ

分散コンピューティング環境におけるアプリケーションの環境管理は難しい。すべてのノードがコードを実行するのに必要な環境を持っていることを保証し、ユーザーのコードの実際の場所を決定することは、複雑なタスクである。 Apache Spark™は、Conda、venv、PEXなど様々な方法を提供している。 --jars、--packagesのようなスクリプトオプションや、 spark.jars.*のようなSparkコンフィギュレーションをサブミットする方法と同様に、 PySparkでPythonの依存関係を管理する方法も併せて参照してみてください。これらのオプションにより、ユーザーはクラスタ内の依存関係をシームレスに処理できる。しかし、Apache Sparkの依存関係を管理するための現在のサポートには限界がある。依存関係は静的にしか追加できず、実行中に変更することはできない。つまり、Driverを起動する前に必ず依存関係を設定する必要がある。この問題に対処するため、Apache Spark 3.5.0か

SQL関数の名前付き引数

November 13, 2023 ダニエル・テネドリオ、Xinyi Yu、アリソン・ワン、Wenchen Fan、Serge Rielau、リチャード・ユーによる投稿 in エンジニアリングのブログ

本日は、SQL関数で名前付き引数を利用できるようになったことを紹介します。この機能を使えば、より柔軟な方法で関数を呼び出すことが可能になります。このブログでは、まずこの機能がどのようなものかを紹介し、次にSQLユーザー定義関数（UDF）のコンテキストで何ができるかを示し、最後に組み込み関数でどのように機能するかを探ります。まとめると、名前付き引数はSQLのヘビーユーザーにとってもライトユーザーにとっても、作業を容易にする新しい便利な方法です。名前付き引数とは何か？多くのプログラミング言語では、関数定義に1つ以上の引数のデフォルト値を含めることができます。例えば、Pythonでは次のようなメソッドを定義できます： def botw(x, y = 6, z = 7): return x * y + z ユーザーがこの機能を呼び出したい場合、次のように選択できます： botw(5...

Python ユーザー定義テーブル関数（UDTFs）の紹介

November 7, 2023 アリソン・ワン、ダニエル・テネドリオ、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Apache Spark™ 3.5とDatabricks Runtime 14.0は、エキサイティングな機能をもたらした：Pythonのユーザー定義テーブル関数（UDTFs）です。このブログでは、UDTFとは何か、なぜUDTFは強力なのか、そしてどのようにUDTFを使うことができるのかについて説明する。 Pythonのユーザー定義テーブル関数（UDTF）とは？ Pythonのユーザー定義テーブル関数（UDTF）は、出力として単一のスカラー結果値の代わりにテーブルを返す新しい種類の関数です。一度登録されると、SQLクエリの FROM 句に登場させることができる。各Python UDTFは0個以上の引数を受け入れ、各引数は整数や文字列のような定数スカラー値である。関数本体は、これらの引数の値を調べて、どのデータを返すべきかを決定することができる。 PythonのUDTFを使うべき理由要するに、複数の行や列を生成する関数が必要で、Pythonの豊富なエコシステムを活用したいのであれば、Python UDTFが

Apache Spark™ 3.5におけるArrowに最適化されたPython UDF

November 6, 2023 Xinrong Meng、Hyukjin Kwon、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Apache Spark™では、Pythonのユーザー定義関数（UDF）は最も人気のある機能の1つです。ユーザーは、独自のデータ処理ニーズに合わせてカスタムコードを作成することができる。しかし、シリアライズとデシリアライズのためにcloudpickleに依存している現在のPython UDFは、特に大きなデータの入出力を扱うときに、パフォーマンスのボトルネックに遭遇する。 Apache Spark 3.5と Databricks Runtime 14.0では、Arrowに最適化されたPython UDFを導入し、パフォーマンスを大幅に改善しました。この最適化の核となるのが、標準化された言語横断的なカラム型インメモリデータ表現である Apache Arrow である。 Arrowを利用することで、これらのUDFは、従来の遅いデータ（デ）シリアライゼーションの方法をバイパスし、JVMとPythonプロセス間の迅速なデータ交換をもたらします。 Apache Arrowの豊富な型システムにより、これらの最適化され

集まれ！Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください！さて、今回はVol.6として満を持して登場、アマゾンウェブサービスジャパン合同会社本橋和貴様をご紹介します。 —- 以前にご紹介したLegendary...

分散XGBoostとLightGBMモデルの軽量なデプロイパターン

October 17, 2023 Jesse Heravi、ショーン・オーウェン、Marshall Carter、Nichole Lu、ブライアン・スミス（Bryan Smith）による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link データサイエンティストが機械学習ソリューションを開発する際に遭遇する一般的な課題は、サーバーのメモリに収まらないほど大きなデータセットでモデルをトレーニングすることです。これは、顧客の離反や傾向を予測するモデルをトレーニングする際に、数千万人のユニークな顧客を扱う必要がある場合に発生します。ある期間に行われた何億もの広告インプレッションに関連するリフトを計算する必要があるとき、このようなことが起こります。また、何十億ものオンラインインタラクションの異常行動を評価する必要がある場合にも、この問題が発生します。この課題を克服するために一般的に採用されているソリューションの1つは、Apache Sparkデータフレームに対して動作するようにモデルを書き換えることです。Sparkデータフレームでは、データセットはパーティションと呼ばれるより小さなサブセットに分割され、Sparkクラスタの集団リソースに分散されます。より多くのメモリが必要ですか

大手金融機関がデータブリックスを採用したワケは

October 11, 2023 Hisae Inoue による投稿 in Databricks ブログ

去る6月28日、サンフランシスコで開催されたDATA＋AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData＋AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート（6/27 Partner Summit） - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。...