メインコンテンツへジャンプ

ようこそOkera: AIを中心としたアプローチでガバナンスを実現する

Share this post

Original: Welcome Okera: Adopting an AI-centric approach to governance

翻訳: junichi.maruyama 

Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近のDolly 2.0の導入以来、すべてのお客様が、AIと大規模言語モデル(LLM)の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。

そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その偏りに対する懸念に対処するために組織を支援します。

AIはデータガバナンスをどう変えるのか?

歴史的に、データガバナンス技術は、洗練度にかかわらず、ある狭い腰の層で制御を実施することに依存しており、この層でワークロードが「壁のある庭」に収まることを要求します。例えば、クラウドデータウェアハウスはアクセスコントロールのためにSQLに依存しており、すべてのワークロードが「SQL」に収まっている限り効率的です。これは数十年前からそうで、データの主な用途は、SQLクエリを生成するビジネス・インテリジェンス・レポートなど、確かにSQL中心だった。

AIの台頭、特に機械学習モデルやLLMの台頭により、このアプローチは不十分になってきています。第一に、AIで使用される多くのデータソースは人間が生成したものではなく、機械が生成したものであるため、企業が管理しなければならないデータ資産の数は指数関数的に増加します。第二に、AIが急速に発展しているため、一企業では最先端の技術を取り込むのに十分な表現力を持つ塀の庭を作ることができない。あるベンダーは、自社のSQLベースのデータウェアハウスエンジンに対してアクセス制御を行うことはできても、オープンソースのライブラリを一つ一つ変更して、ウォールドガーデンの特定の制御に準拠するようにすることはできないだろう。つまり、実績やバイアスといったAI特有のガバナンスの問題は、従来のデータガバナンス・プラットフォームの手の届かないところにあるのです。

OkeraのAIを中心としたガバナンス技術

オケラのデータガバナンス・プラットフォームは、この新しい世界におけるデータガバナンスの課題に対応できる2つの独自技術を提供します。

まず、オケラはAIを搭載した直感的なインターフェースを提供し、個人を特定できる情報(PII)などの機密データを自動的に発見、分類し、タグ付けします。これらのタグにより、データガバナンスの関係者は簡単にコンプライアンスを評価し、データの可視性と制御性を向上させるノーコードアクセスポリシーを作成することができます。また、機密データの利用状況を迅速に監査・分析するためのセルフサービスポータルを提供し、データの利用パターンを確実に監視・追跡できるようにします。これにより、データ資産が爆発的に増加し、その多くがAIで生成されるような状況でも、ガバナンスポリシーが一貫して適用されることを保証することができます。

第二に、オケラは、パフォーマンスを犠牲にすることなくガバナンス制御を実施しながら、任意のワークロードをサポートできる新しい分離技術の開発を進めています。この技術はプライベートプレビュー中で、多くの共同顧客がAIワークロードに特化してテストしています。企業が新しい世界におけるアプリケーションの全領域を効率的にカバーするための鍵となるものです。この新技術の技術的な詳細については、近日中にお伝えする予定です。

OkeraとのUnity Catalog

レイクハウスは、データとAIのアプリケーションを一緒に開発し、LLMを構築するための最高の場所です。私たちのレイクハウス・ビジョンは、これらのワークロードを1つのプラットフォームで統一することを中心に据えています。私たちのレイクハウス・ビジョンの基盤には、すべてのデータおよびAIワークロードのデータガバナンス・レイヤーであるUnity Catalogがあります。私たちは、オケラのAIを中心としたガバナンス技術をUnity Catalogに統合していくつもりです。

当社の顧客は、AIを使用して、属性ベースおよび意図ベースのアクセスポリシーで、すべてのデータ、分析、AI資産(MLモデルおよびモデル機能を含む)を発見、分類、管理できるようになるというメリットを得ることができます。さらに、アナリティクスやAIアプリケーションにおける機密データの使用状況を一元的に監査・報告し、データの系譜を列レベルまで自動的に追跡できる、レイクハウス上のエンドツーエンドのデータ観察可能性という利点もあります。

これらの機能強化により、お客様はクラウド上のデータ資産を全体的に把握できるようになり、単一の権限モデルを使用してアクセスポリシーを定義できるため、AIのユースケースを加速させ、レイクハウス全体で一貫したガバナンスを確保できます。また、今回の買収により、他のデータガバナンスパートナーが使用できる、よりリッチなポリシーのAPIを公開することができ、お客様にシームレスなソリューションを提供することができます。

The Okera Team

Databricksにとって知らない人はいないOkeraチームを迎えることができ、これ以上ないほど興奮しています。Okeraの共同設立者兼CEOであるNong Liは、Databricksやその他の業界が構築しているオープンソースの標準ストレージフォーマットであるApache Parquetを開発したことで広く知られています。彼は、Apache Spark 2.0の10倍の性能向上を実現したベクトル化Parquetとcodegenの取り組みを主導しました。

Okeraの素晴らしい技術を支えているのは、Nongが集めた優秀なチームです。彼らと話を始めた瞬間、この2社が力を合わせ、非常にうまく統合されることがわかりました。

“オケラは、データドリブンな現代企業が、データセキュリティリスクを最小化し、規制遵守を実現しながら、合法的なデータアクセスを加速させることを支援するために設立されました。さまざまなアプリケーションでデータの量、速度、種類が増え続ける中、CIO、CDO、CEOは、この2つの相反する取り組みのバランスを取ることが必要です - 言うまでもなく、これまで複数のクラウドでアクセスポリシーを管理することは、困難で時間のかかる作業でした。多くの組織は、特にLLMの爆発的な増加に伴い、アクセスポリシーを大規模に管理するための十分な技術的才能を持ち合わせていない。そんな彼らに必要なのは、最新のAI中心のガバナンス・ソリューションです。私たちはDatabricksチームに参加し、世界で最も先進的な企業のために、安全でスケーラブルかつシンプルなガバナンスソリューションを構築してきた私たちの専門知識を提供できることを、これ以上ないほどうれしく思っています.”
— オケラ共同創業者兼CEO ノン・リー氏

What’s next?

私たちは、Nongと非常に優秀なOkeraチームをDatabricksに迎えることができ、感激しています。来年には、Okeraのコア機能をDatabricksプラットフォームに直接組み込み、Unity Catalogが提供する統一されたAI中心のガバナンス体験をさらに強化することを楽しみにしています。

Stay tuned for more at the Data and AI Summit this June.

Databricks 無料トライアル

関連記事

Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

Original Post: Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM 翻訳: Takaaki Yayoi 2週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)である Dolly をリリースしました。本日、 研究と商用利用 にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMである Dolly 2.0 をリリースします。...

edXの新しい専門家主導の大規模言語モデル(LLMs)コースに登録する

Original : Enroll in our New Expert-Led Large Language Models (LLMs) Courses on edX 翻訳: junichi.maruyama edXの入門コースに今すぐ登録する!コースは2023年夏開始予定です edXの新しい大規模言語モデルコース Large Language Model (LLM)アプリケーションが無数の産業を破壊する中、生成AIは重要な基盤技術になりつつある。LLMベースのアプリケーションの需要は急増しており、それを構築できるエンジニアの需要も高まっています。 今日、私たちは新しい...

Unity Catalogによる分散型データガバナンスと孤立した環境の実現

Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳: junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者(CDO)の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。 その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま

一般提供を発表:Unity Catalog でのデータリネージ

本日、AWS と Azure で利用可能な Unity Catalog において、データリネージの一般提供を開始したことをお知らせします。データリネージの一般提供により、Databricks レイクハウスプラットフォーム上のミッションクリティカルなワークロードに対して、最高レベルの安定性、サポート、エンタープライズレディネスを期待することができます。データリネージガイド( AWS | Azure )を参照してください。 このブログでは、データリネージを実用的なデータガバナンス戦略の重要な手段として活用する方法、GA リリースで利用できる主要機能の一部、および Unity Catalog でデータリネージを開始する方法について説明します。 データリネージでデータの観測性とコンプライアンスを向上させる Unity Catalog は、データ、分析、AIのための統合ガバナンスソリューションで、データチームがすべてのデータとAI資産をカタログ化し、ANSI SQL に基づく使い慣れたインターフェースを使用してきめ細かいア
Databricks ブログ一覧へ