メインコンテンツへジャンプ

業界をリードするAIモデルを用いたユニバーサルスピーチインテリジェンスの構築

SonioxがDatabricksを使用して高度なトレーニングワークロードをサポート
Share this post

Summary

2020年に設立されたAIスタートアップのSonioxは、人間のように音声とオーディオを処理できる高精度の音声認識AIモデル、Omnioを開発しました。この革新的なモデルを構築するために、Sonioxはモデル開発を簡素化した業界をリードするDatabricksのMosaic AIトレーニングツールに頼りました。

私たちはオンラインのドキュメンテーションに従って、数時間で運用を開始し、ジョブを実行し始めました。私たちは一度も問題に直面していません。 – クレメン・シモニック、創設者/CEO

 

Sonioxは、経験豊富なAI研究者によって2020年に設立され、音声認識のための教師なし学習の先駆者です。2022年には、最高レベルの精度を持つ音声認識AIとして初の製品をリリースしました。その対象となるのは、主要8言語:ドイツ語、ポルトガル語、イタリア語、フランス語、スペイン語、中国語、韓国語、そして英語です。各外国語AIモデルはバイリンガルで、その言語と英語を理解することができ、ビジネスの使用事例をより効果的にサポートします。

 

Sonioxチームは、カスタムAIモデルのトレーニングに精通していました。Databricksとの協力前に、彼らはすでに一つの多言語大規模言語モデル(LLM)を訓練していました。 Soniox 7Bそれでも彼らは、次の大規模なマルチモーダルLLMのトレーニングをサポートするためにDatabricksに頼りました。Omnioこれは、オーディオ信号のすべての情報を完全に利用する能力を持ち、音声認識の分野で大きな進歩を遂げています。Omnioは、人間が可能なように音声とオーディオを処理できる最初の大規模AIモデルです。それは音声を認識し理解し、話者を識別し、感情とセンチメントを識別することができます。それはさらに、背景音と人間が作った音を区別することさえできます。この非常に革新的なモデルを構築するために、Sonixはオーディオとテキストのインターネット規模のデータセットを取り扱う必要がありました。

 

オンラインでの調査の後、SonioxはDatabricksとMosaic AIトレーニングにたどり着きました。Simonicは説明します。「私たちは典型的なDatabricksの顧客ではありません。自分たちのトレーニングループと分散トレーニングインフラを持っています。しかし、あなた方のチームと仕事を始めたとき、あなた方のツールが開発者のために開発者によって作られていることが明らかでした。私たちはMosaic AIトレーニングが大好きです。使いやすいです。」Sonioxは他のインフラ提供者を使用していましたが、Mosaic AIトレーニングクラスタの計算可能性と利便性を評価しました。

 

Simonicは続けます。「Mosaic AIトレーニングを作った人は、ジョブの開始とトレーニングの方法を本当に理解していると言えます。私たちは他のプラットフォームを試しましたが、あなた方のプラットフォームがジョブを開始する最も簡単な方法でした。あなた方のチームは、正しい機能を正しい方法で作り、使いやすくしました。」スタートアップの創設者として、Simonicは最初、Databricksをエンタープライズ向けの会社と認識していました。彼は、アカウントチームからパーソナライズされたサポートを受けて、うれしく思いました。「初期段階のスタートアップであっても、お客様の声を聞くことは本当に重要です。」Simonicは続けて、「技術的な課題が生じると、スタートアップにとっては大きな組織の予算がないため、失敗をサポートするのが難しいことがあります」と述べました。SimonicがDatabricksチームから受けた個人的な注意は、将来のトレーニングランで発生する可能性のある問題を解決する能力に自信を与えてくれました。

 

Sonioxチームは最初、Mosaic AIトレーニングの機能性に引きつけられましたが、データの取り込みからモデルの提供までのワークロードをサポートできるDatabricksからのより広範なGenAIエコシステムの一部であることを評価しています。今後、Sonioxは、音声からテキストへの変換やOmnio製品の機能を拡張し、トランスクリプションから音声の要約、音声対話まで、ユーザーがオーディオとのインタラクションを変える使用事例の範囲を広げることを計画しています。これには、ヘルスケア、法律、カスタマーケアなどの業界が含まれます。Sonioxは最初、ラベルなしのオーディオデータをどのように活用するかを調査するための研究プロジェクトとして始まりました。今日では、その画期的な音声認識AIは、人間と機械の相互作用に新たな可能性を開きます。

 

次のステップ

Databricks 無料トライアル

関連記事

生成AIモデルのファインチューニングが簡単に!Mosaic AI Model Trainingが登場

本日、Mosaic AIモデルトレーニングによる生成AIモデルの微調整サポートがパブリックプレビューで利用可能になったことをお知らせできることを嬉しく思います。Databricksでは、汎用LLM(大規模言語モデル)の知能と企業データの知識を結びつけること、すなわち「データインテリジェンス」が高品質な生成AI システム を構築する鍵であると考えています。ファインチューニングにより、モデルは特定のタスクやビジネスコンテキスト、専門知識に特化でき、RAG(再利用可能な生成)と 組み合わせ ることで、より正確なアプリケーションが可能になります。これにより、企業データを取り入れて生成AIを独自のニーズに適応させるための重要な柱となる「データインテリジェンスプラットフォーム戦略」が形成されます。 モデルトレーニング 私たちの顧客は昨年、20万以上のカスタムAIモデルをトレーニングしており、その経験を基にMosaic AI Model Trainingという完全マネージドサービスを開発しました。Llama 3、Mistral
生成 AI一覧へ