メインコンテンツへジャンプ
<
ページ 6
>

Databricksノートブックの画像:私の鮮やかな夏のインターンシップ

August 30, 2024 ケネス・チョイ による投稿 in
このブログ投稿を書いている時点で、私はDatabricksの探索的データ分析(EDA)チームでの夏のインターンシップが終わるまであと一週間です。夏がこんなに早く過ぎ去ったなんて信じられません。まるで昨日のことのように、私がチームのリポジトリをクローンし、オンボーディングの仲間に助けを求めていたように感じます!12週間の間に、私は一つのテーマを基にした三つのプロジェクトフェーズを完成させました:Databricksノートブックで画像を操作するユーザーエクスペリエンスを改善すること。 Databricksノートブック あなたがコードを通じてデータと交流したことがあるなら、おそらくノートブックを使用したことがあるでしょう。ノートブックはPython、SQL、Scala、Rのコードエディタの一種で、データサイエンスや機械学習でデータを抽出し使用する手段として一般的です。データ+AIの会社として、Databricksはプラットフォームと深く統合された独自のノートブックを顧客に提供しています。 Databricksノートブッ

Databricksコミュニティからのハイライト

Databricksコミュニティ内には、コミュニティメンバーがデータ分析、データエンジニアリング、機械学習に関するベストプラクティス、チュートリアル、洞察を共有する技術ブログがあります。まだDatabricksコミュニティのメンバーでない場合は、 こちらをチェック してみてください。 今月は、AIアプリの構築、モデルのプロンプト、データ分布のシフトの監視についてのヒントを提供する最近の技術ブログをいくつか紹介します。 8週間、2人の開発者、1つの本番AIカンファレンスアシスタント Databricksチームが最近のData + AI Summitで参加者がセッション、出展者、一般的なカンファレンス情報についての質問に答えるためのAIアシスタントをどのように構築したか。 Foundation Models APIプロンプトガイド1:プロンプトのライフサイクル Databricks Foundation Model APIを通じてアクセス可能なモデルのためのプロンプトツールとテクニック、例えばLlama 3。 MLO

2024年のデータ+AIワールドツアーへようこそ

2024年の データ+AIワールドツアー の開催を大変うれしく思います。これは、世界各地の都市で開催される無料の対面イベントの一連のシリーズです。各地でのイベントでは、その地域の最も重要な課題やユースケースに対応できるスピーカー陣を特別に揃えています。 参加者が体験する内容の一部をご紹介します: Databricksデータインテリジェンスプラットフォームの最新の進歩を探求しましょう: Databricksの技術専門家、顧客、パートナーから、Databricksプラットフォームの最新の革新について聞くことができます。これには、GenAI、ビジネスインテリジェンス、データウェアハウジング、データガバナンスなどが含まれます。これらの技術は、地元の企業がデータとAIの戦略を大きく前進させるのを助けています。 トレーニングやライブデモで知識を深めましょう 私たちの製品とGenerative AI、データエンジニアリングなどのユースケースに深く潜り込むための現地トレーニングセッションに参加してください。また、あなたの近くの最

GenAI Journey:企業が一般目的からカスタムLLMへと進化している方法

企業におけるGenAIについては、興奮が現実と衝突しています。リーダーたちはこの技術の力を認識し、自分たちの業務に熱心に適用したいと考えています。しかし、多くの人々が継続的なパフォーマンスの問題に悩まされています。 企業は、広範で一般的なモデルがインターネットの広大なアーカイブを要約するように設計されているとき、自分たちのビジネスに関する特別な洞察を提供することが期待されるときには不十分であることを認識しています。現在、焦点はこれらのますます強力なシステムをビジネスの競争優位を支えるカスタマイズされたソリューションの基盤として使用することにあります。 基礎からカスタマイズされたLLMへのこの道のりは、各企業で異なりますが、リーダーが求める正確で統制されたGenAIを開発者が提供するための新しいツールが必要となります。 旅の理解 ほとんどのビジネスでは、GenAIの旅は大きな基本的なモデルを試すことから始まります。これらは独自のモデルであるか、またはますますオープンソースのシステムである可能性があります。 この初期

データエンジニアリングとGenAI:実践者が必要とするツール

最近のMIT Tech Review Reportによると、調査対象の組織の71%が自社のGenAIモデルを構築する予定であることが示されています。これらのモデルのために独自のデータを活用する作業が増えるにつれて、多くの人が同じ厳しい真実に直面します:良いデータがなければ、世界で最も優れたGenAIモデルも成功しません。 この現実は、大量のデータを効率的に取り込んだり、ストリームしたりし、高いデータ品質を確保できる信頼性の高いデータパイプラインを構築する重要性を強調しています。言い換えれば、良好なデータエンジニアリングは、GenAIを含むすべてのデータとAIのイニシアチブにおいて成功の重要な要素です。 この努力に関与する多くのタスクは、最終的なワークロードに関係なく同じままですが、GenAIアプリケーションを構築する際にデータエンジニアが準備する必要がある新たな課題があります。 コア機能 データエンジニアの仕事は通常、3つの主要なタスクにわたります: 取り込み: 多くのソースからデータを取得し - オンプレミスま

GenAIでの勝利:データインテリジェンスの未来のための適切なプロセスを構築する

すべてのビジネスは、データとAIの先駆者になりたいと考えています。しかし、それを実現するためには、企業はGenAIのビジョンと戦略にコミットし、そのビジョンを管理可能なステップに分解する必要があります。言い換えれば、企業はビジネス全体でAIを解放し活用するための適切なプロセスが必要です。 過去のブログで取り上げたように、企業が 人々を管理する方法 と 基礎となるIT基盤 は、Generative AI採用の旅の重要なステップです。しかし、適切なプロセスを設定することが、企業が労働力と技術を結びつける方法です。これが唯一、ビジネスを目標に向けて前進させる結果を実際に推進する方法です。新しいシステムを採用することは一つのことです。それらから実際に価値を得ることは別のことです。 企業はAIが活躍できる環境を構築する必要があります。彼らは採用への技術的な障壁を排除する必要があります。従業員は、これらの新しいシステムを自信を持って使用し、移行期間中に管理者からサポートを受ける必要があります。リーダーはAIの力を示す適切なプ

世界をリードする企業からのデータ + AIユースケース

Data + AI Summitで最もエキサイティングなパートの一つは、10,000以上のグローバルな顧客がDatabricksをどのように使用してビジネスを改善しているかを聞くことです。 データインテリジェンスプラットフォームを使用することで、すべての従業員が生のデータを洞察に変換し、仕事をより良く行うのに役立つ結果を生み出し、内部プロセスをより効率的にすることができます。 GM、Block、マクドナルド、J.P.モルガン・チェース、テキサス・レンジャーズ、ユニリーバ、その他250以上の顧客が、データとAIをどのように使用し、どのような結果を達成し、それを実現するためにどのようなツールを使用したかを共有しました。これらの素晴らしいストーリーを一つの場所にまとめ、他のビジネスがデータインテリジェンスの変革的な効果を見るのを助けたいと思いました。 データ + AIサミットで紹介されたユースケース Texas Rangers は、Data Intelligence Platformを使用して、選手のメカニクスを分析し

Databricksワークフローで反復的なタスクを合理化

Databricksワークフローのタスクループ化に For Each を使用したループが一般に利用可能になったことをお知らせします!この新しいタスクタイプは、ランタイムで定義された動的なパラメーターセットをループすることにより、反復的なタスクを自動化することがこれまで以上に簡単になります。これは、 Databricksワークフロー の 強化された制御フロー機能 への我々の継続的な投資の一部です。 For Each を使用すると、ワークフローの効率とスケーラビリティを向上させ、複雑なロジックではなく洞察に集中する時間を確保できます。 ループ処理は繰り返しタスクの処理を劇的に改善します 複雑なワークフローの管理は、しばしば複数のデータセットの処理や複数の操作の実行を必要とする反復的なタスクを扱うことを含みます。ループのサポートがないデータオーケストレーションツールは、いくつかの課題を提示します。 複雑なロジックの簡略化 以前は、ユーザーは反復的なタスクを管理するために手動で、保守が難しいロジックに頼ることが多かったで

Delta Live Tablesパイプラインのためのコスト効率的で増分的なETLとサーバーレスコンピューティング

私たちは最近、ノートブック、ワークフロー、Delta Live Tables(DLT)パイプラインのサーバーレスコンピューティングの一般提供開始を 発表しました 。今日、DLTパイプラインで構築されたETLパイプラインが、サーバーレスコンピュートからどのように利益を得られるかを説明したいと思います。 DLTパイプライン は、シンプルで宣言的なフレームワークを使用して、コスト効率の良いストリーミングとバッチETLワークフローを簡単に構築できます。データの変換を定義し、DLTパイプラインはタスクのオーケストレーション、スケーリング、監視、データ品質、エラーハンドリングを自動的に管理します。 DLTパイプラインのサーバーレスコンピュートは、データ取り込みについては最大5倍のコストパフォーマンスを提供し、複雑な変換については最大98%のコスト節約を提供します。また、DLTクラシックコンピュートに比べて信頼性も向上します。この組み合わせにより、Databricks上で高速かつ信頼性の高いETLを大規模に実現します。このブロ

Mosaic AI Vector Searchのハイブリッド検索の一般提供を開始

Mosaic AI Vector Searchにおけるハイブリッド検索の一般提供開始を発表することを嬉しく思います。ハイブリッド検索は、事前に訓練された埋め込みモデルの強みとキーワード検索の柔軟性を組み合わせた強力な機能です。このブログ投稿では、ハイブリッド検索がなぜ重要で、どのように機能し、どのようにして検索結果を改善するためにそれを使用できるかを説明します。 ハイブリッド検索の理由は何ですか? 事前学習済みの埋め込みモデルは、非構造化データを表現する強力な方法であり、意味を圧縮し、簡単に検索可能な形式で捉えます。しかし、それは外部データを使用して訓練されており、あなたのデータについての明確な知識はありません。ハイブリッド検索は、ベクトル検索インデックスの上に学習したキーワード検索インデックスを追加します。キーワード検索インデックスはあなたのデータで訓練されており、そのため、あなたの検索状況に重要な名前、製品キー、その他の識別子についての知識を持っています。 ハイブリッド検索を選ぶタイミング ハイブリッド検索は