メインコンテンツへジャンプ
ページ 1

「Databricks Assistant Autocomplete」ついに一般提供開始!

本日、全てのクラウドプラットフォームで「 Databricks Assistant Autocomplete 」の一般提供を開始しました!Assistant Autocompleteは、PythonとSQLの両方で、入力中にAIによるパーソナライズされたコード提案を提供します。 アシスタントオートコンプリート ノートブックやSQLエディタ、AI/BIダッシュボードに直接統合されたAssistant Autocompleteの提案は、開発フローにスムーズに溶け込み、作業に集中したまま効率的にコーディングが進められます。 「普段はGenAIには懐疑的な方ですが、Databricks Assistant Autocompleteは、この技術において数少ない本当に素晴らしいユースケースの一つだと感じています。動作は速く、正確性も十分で、キー入力をかなり節約できるため、入力よりも思考に集中できるようになりました。さらに、APIの定型文(例:プロットの注釈など)を確認するためにインターネットを頻繁に参照する必要がほぼなくなり

LLMのためのコーディングテスト作成 〜Spark SQLに焦点を当てて〜

はじめに コード生成のための大規模言語モデル(LLM)の活用はますます一般的になっており、より速く、よりスマートにコーディングできる利点があります。しかし、LLMが生成するコードの正確性が主な懸念点です。多くのオープンソースのコーディングベンチマークは一般的なコーディングスキルの評価を目的としていますが、企業環境では、LLMは一般的なプログラミング能力だけでなく、MLflowやSpark SQLといった特定のライブラリやツールの利用にも対応する必要があります。 このため、LLMが特定のコーディングライブラリにおける能力を体系的に評価する方法が求められています。 本ブログ記事では、この課題に対処するため、 LLM向けのライブラリ特化型コードテストを生成する手法をご紹介 します。これらの生成されたテストケースは、モデルを評価するための構造化された方法を提供し、特定のライブラリに適したモデルを選定する助けとなります。また、ドメイン固有のファインチューニングにより、特定のライブラリへの熟練度向上も測定可能です。 この記事

Databricks で Text2SQL のパフォーマンスを簡単に向上

Databricksでの巧みなプロンプトとファインチューニングにより、Llama3 8B で Spider dev データセットの 79.9% に到達した方法。

DatabricksIQ LLMの品質向上 - AIによるテーブル説明文の生成

最近、 Unity CatalogのAI生成コメント をサポートする基礎となるアルゴリズムに大幅な改善を加えました。 その結果を皆さんにお伝えできることを嬉しく思います。Databricks のデータインテリジェンスエンジンである DatabricksIQ を通じて、AIによって生成されたコメントは、顧客のUnity Catalogテーブルの新しいドキュメントの大部分をすでに生成しており、最近の機能強化は、この非常に人気のある機能をさらに強化します。 このブログでは、トレーニングデータの合成に更新されたオープンソースLLMを使用する方法、トレーニングデータのクリーニングにヒューリスティックフィルターを使用する方法、ファインチューニング用に更新されたベースモデルを使用する方法、および自動ベンチマークで利用される拡張評価セットを使用する方法について説明します。最小限の労力で、これらの変更により、 オフライン ベンチマークで以前に導入されたモデルと比較して、優先率が 2倍に増加し ました。 さらに広い意味では、この取り

AI生成ドキュメンテーションのためにオーダーメイドLLMを作成する

これは、大規模言語モデル(LLM)を使用して、Unityカタログのテーブルとカラムのドキュメントを自動的に生成するものです 。 私たちは、この機能がお客様から好評をいただいていることに身の引き締まる思いです。 現在、 Databricksのテーブルメタデータ更新の80%以上がAI支援による ものです。 このブログポストでは、既製のSaaSベースのLLMを使用したハッカソンプロトタイピングから、より良く、より速く、より安いオーダーメイドのLLMの作成まで、この機能を開発した私たちの経験を紹介します。 この新しいモデルの開発には、2人のエンジニア、1ヶ月、1,000ドル未満の計算コストしかかかりませんでした(!) 私たちは、これらの学習がGenAIの幅広いユースケースに当てはまると考えているので、参考にしていただければ幸いです。 さらに重要なのは、オープンソースLLMの急速な進歩を利用できるようになったことです。 AIが作成した文書とは? 各データ・プラットフォームの中心には、データセット(多くの場合テーブル形式)の

Databricks UnityカタログにおけるAI生成ドキュメントのパブリックプレビューを発表

翻訳:Saki Kitaoka. - Original Blog Link 本日、 Databricks Unity Catalog のAI生成ドキュメンテーションのパブリックプレビューを発表します。この機能は、生成AIを活用し、テーブルやカラムの説明やコメントの追加を自動化することで、組織のデータやAI資産の文書化、キュレーション、ディスカバリーを簡素化します。 今日のデータ主導の状況では、データは情報に基づいた意思決定の基盤であり、チームワークの強固な基盤を確立するには、シームレスなデータの発見性と明確性が重要です。しかし、データチームはしばしば、包括的なデータ説明がないために文脈が理解できないという重大な課題に直面します。この不足は、ユーザーがデータの潜在能力を十分に活用する妨げとなるため、このギャップを埋める簡素なデータ記述の必要性が強調されています。 さらに、表や列の適切なメタデータや説明文がないことが問題を複雑にしており、その結果、いくつかの問題が生じています: データの曖昧さ : データの曖昧さ:表