メインコンテンツへジャンプ
<
ページ 22
>

レイクハウス探訪 - Databricksの全貌に迫る

March 11, 2023 Takaaki Yayoi による投稿 in
本稿では、Databricksレイクハウスの構成要素を紐解き、それぞれが担う役割や提供機能にディープダイブする。 レイクハウスとは こちらの記事 でも触れているように、レイクハウスはこれまでのデータプラットフォームの課題を解決するために、データウェアハウスとデータレイクの長所を組み合わせた新たなデータプラットフォームである。以下の図に示しているように、レイクハウスではテーブルなどの構造化データ、ログやJSONのような半構造化データ、さらには、画像・音声・テキストのような非構造化データすべてを格納することができ、データウェアハウスを活用して行われていたBIや、データレイクの主なユースケースであるデータサイエンスや機械学習の取り組みなどをすべて一つのプラットフォームで実施することできる。 以降では、Databricksでこのような機能をどのように実現しているのかを説明していく。 レイクハウスのアーキテクチャ ハイレベルなレイクハウスのアーキテクチャ図を以下に示す。一番上にあるグリーンの箱は、ユースケースあるいはペルソ

データ×AIプロジェクトに携わる人々はどのようにDatabricksを活用するのか

March 10, 2023 Takaaki Yayoi による投稿 in
数多くの企業が、競争優位性を確保し、イノベーションを促進するためにデータとAIを活用しようとしている。データとAI活用のユースケースやプロジェクトは多岐にわたるが、そのようなプロジェクトに従事する人々のペルソナやスキルセットは共通している。本稿では、データ×AIプロジェクトに従事するのはどのような人たちなのか、彼らはどのような課題を抱えているのかを説明し、Databricksレイクハウスプラットフォームを活用することでどのような価値を得ているのかをサンプルシナリオを通じてデモンストレーションする。 データ×AIプロジェクトとは ビッグデータというキーワードが出現した2010年代以降、データは減るどころか指数関数的に増加しており、その重要性も増していると言える。しかし、一方でそれらのデータを全ての企業が有効に活用できているのかというと、そういう訳でもないのが実情である。 2021年のMIT Tech Review によると、データ戦略に成功している企業は全体の13%である。 このような状況を打破しようと、ここ数年で

Unity Catalogによる分散型データガバナンスと孤立した環境の実現

Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳: junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者(CDO)の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。 その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま

Databricks SQLステートメント実行API - パブリックプレビューを発表

Original Blog : Databricks SQL Statement Execution API – Announcing the Public Preview 翻訳: junichi.maruyama 本日、AWSとAzureで利用可能なDatabricks SQLステートメント実行APIのパブリックプレビューを発表します。 Databricks SQL ウェアハウスにREST APIで接続し、 Databricks Lakehouse...

集まれ!Legendary Heroes of DATA + AI !! Vol3

January 31, 2023 Hisae Inoue による投稿 in
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか? Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います!! さて、最終回のVol.3 では、 日本マイクロソフト 中里 浩...

Databricks Notebooksのアップグレードを紹介 - 新しいエディタ、Pythonフォーマットなど

Databricks Notebooksは、データおよびAIプロダクトを構築するすべての人に、シンプルで統一された環境を提供します。本日、Notebooksのエクスペリエンスに関するアップデートを紹介します: オートコンプリートの高速化、シンタックスハイライトの改善、コードの折りたたみなど、より速くコーディングできるようになった新しいエディター。 Blackを使ったPython Code Formatterでコードを読みやすく、レビューしやすく。 ノートブック内で選択されたテキストを実行し、デバッグを加速させる 新しいノートブックエディター 私たちの新しいエディターは、ユーザーにとって、コーディングをより簡単に、より速く、より間違いの少ないものにするための多くの機能を可能にします。IDEからブラウザにシームレスに移行し、同様のユーザーエクスペリエンスにアクセスできるようにしたいと考えています。私たちは、MicrosoftのVS Codeを支えるオープンソースのエディターであるMonacoを採用し、あなたの生活をよ

集まれ!Legendary Heroes of DATA + AI !!

January 17, 2023 Hisae Inoue による投稿 in
現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、その動きは日本でも然り。日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Vol.2としてアクセンチュア株式会社 様をご紹介します! データブリックスの目指す世界は、私たち単体ではなし得ません! 「 Databricks Champion 」の皆様は、共にゴールを共有し、共に走っていく、まさしく、Legendary Heroes of DATA + AI です!! 今回は、 アクセンチュア株式会社...

Community Editionで始めるDatabricks

December 28, 2022 Masahiko Kitamura による投稿 in
Databricksはあらゆるデータ・分析・データサイエンスのワークロードに対応可能なオープンかつシンプルな Lakehouse を提供しています。そして、Databricksではその機能を無償でお試しいただけるよう、2通りの方法を用意しております。 2週間の無償トライアル: Databricksのフル機能をお試しいただけます。 Community Edition: 機能が限定されますが、期限なし・無償でご利用いただけます。 このブログでは、後者のCommunity Editionを使用したDatabricksの始め方について説明します。 Community Editionの機能と制限 Community Editionでは、Databricksのフルバージョンの機能に対して以下の制限があります。 作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみ ワークスペースに追加できるユーザー数は最大3名まで クラスターのリージョンはus-westのみ 使用できない機能 ジョブのスケジュール

一般提供を発表:Unity Catalog でのデータリネージ

本日、AWS と Azure で利用可能な Unity Catalog において、データリネージの一般提供を開始したことをお知らせします。データリネージの一般提供により、Databricks レイクハウスプラットフォーム上のミッションクリティカルなワークロードに対して、最高レベルの安定性、サポート、エンタープライズレディネスを期待することができます。データリネージガイド( AWS | Azure )を参照してください。 このブログでは、データリネージを実用的なデータガバナンス戦略の重要な手段として活用する方法、GA リリースで利用できる主要機能の一部、および Unity Catalog でデータリネージを開始する方法について説明します。 データリネージでデータの観測性とコンプライアンスを向上させる Unity Catalog は、データ、分析、AIのための統合ガバナンスソリューションで、データチームがすべてのデータとAI資産をカタログ化し、ANSI SQL に基づく使い慣れたインターフェースを使用してきめ細かいア