メインコンテンツへジャンプ

データセット

データセットとは

データセットとは、分析や処理のために組織化され、一緒に保存されたデータの構造化されたコレクションです。データセット内のデータは通常、何らかの形で関連しており、単一のソースから取得されるか、単一のプロジェクトを対象としています。例えば、データセットには、ビジネスデータ(売上高、顧客の連絡先情報、トランザクションなど)のコレクションが含まれている場合があります。データセットには、数値からテキスト、画像、音声記録まで、さまざまな種類のデータを含められます。データセット内のデータは通常、個別にアクセスすることも、組み合わせてアクセスすることも、全体として管理することもできます。

データセットは、データ分析、データ解析、機械学習(ML)における基本的なツールであり、アナリストが知見や傾向を導き出すためのデータを提供します。ML プロジェクトに適したデータセットを選択することは、ML モデルのトレーニングとデプロイを成功させるための最も重要な初期ステップの 1 つであり、ML にとって不可欠です。

Databricks についてさらに詳しく

機械学習ユースケースのビッグブック — 第二版

機械学習の実用化をめざす組織のためのハウツーガイドです。ユースケース、コードサンプル、Notebook も掲載しています。

eBook をダウンロード

ETL をはじめよう

O'Reilly のガイドプレビューで ETL パイプラインについて学びましょう。

ダウンロード

生成 AI の基礎

オンデマンドトレーニングを受講して、LLM を含む生成 AI の知識を深めましょう。

今すぐスタート

データセットは data setdataset

データセット」という単語をめぐっては、 1 語か 2 語かという議論があります。Merriam-Webster では「dataset」というように 1 つの単語として掲載されていますが、Dictionary.com などの他の情報源では、「data set」として 2 つの単語で掲載されています。Databricks では、dataset としています。

データセット vs. データベース

また、「データセット」と「データベース」という用語もしばしば混同されます。データベースとデータセットは、どちらもデータの整理と管理を表すために使用される関連用語ですが、いくつかの点で意味が異なります。

最初のセクションで定義したように、データセットとは分析やモデリングに使用されるデータの集まりであり、通常は構造化されたフォーマットで編成されます。構造化されたフォーマットとは、Excel のスプレッドシート、CSV ファイル、JSON ファイル、またはその他のフォーマットのことを意味します。データセットのデータは複数の方法で組織化でき、顧客投票、実験、既存のデータベースといったさまざまなソースから作成できます。データセットは、機械学習モデルのトレーニングやテスト、データの可視化、研究や統計分析など、さまざまな目的で使用できます。また、データセットは公開または非公開で共有でき、通常、データベースよりもサイズが小さいです。

データベースは、電子的に保存された大量の組織化されたデータを長期的に保存・管理するために設計されており、データへのアクセス、操作、更新が簡単に行えます。言い換えれば、データベースとは、複数のデータセットとして保存され、組織化されたデータのコレクションです。リレーショナルデータベース、ドキュメントデータベース、キーバリューデータベースなど、さまざまな種類のデータベースが存在します。

データセットの例

データセットには、数値、テキスト、画像、音声記録、あるいは物体の基本的な説明が含まれます。データセットは、表やファイルなどのさまざまな形式で組織化できます。データセットの例には、次のようなものがあります。

  • 指定された期間における特定の地域で販売された全ての不動産のリストを含むデータセット
  • 隕石の落下地点に関する全ての情報を含むデータセット
  • 指定された期間における特定地域の大気質に関するデータセット
  • 2021~2022 学年度の幼稚園から高校までの公立学校に通う生徒における生徒グループ別および地区別の出席率を含むデータセット

公開データセット

公開データセットとは、テーマやトピックを中心に組織化され、一般に公開されているデータのことです。公開データセットは一般的に無料で利用でき、ML モデルのトレーニングに使用できるデータを簡単にダウンロードできるため、データサイエンティストにとって特に価値があります。

例えば、米国海洋大気庁(NOAA)は、水質から気候変動までのあらゆるデータを提供しています。放送型自動従属監視(ADS-B)データは、民間航空機の動きをリアルタイムで示し、米国一般調達庁は、20 万以上のデータセットと数百のカテゴリを含む Data.gov を提供しています。

Databricks では Databricks Workspace で使用できる、サードパーティが提供するさまざまなサンプルデータセットを提供しています。このようなデータセットを Databricks 上の AI や機械学習と連携して使用することで、ML チームはデータの準備と処理を効率化し、チーム間のコラボレーションを支援し、生成 AI や大規模言語モデルをはじめとする実験から本番までの機械学習ライフサイクルの効率化を可能にします。

データセットの使用

データセットの利用方法には、いくつか種類があります。アナリストは、ビジネスインテリジェンスのためにデータを探索し、可視化するために使用します。データサイエンティストは、ML モデルのトレーニングにデータセットを使用します。しかし、データセットを利用する前に、データエンジニアリングプロセスETL - 抽出、変換、格納) でデータをデータレイクやレイクハウスに取り込む必要があります。ETL は、エンジニアがさまざまなソースからデータを抽出し、データを使用可能で信頼できるリソースに変換し、エンドユーザーがビジネス上の問題を解決するためにアクセスして使用できるシステムにデータを格納することを可能にします。

データセットの管理、カタログ化、保護

データセットを利用する前に、カタログ化してガバナンスシステムで管理し、安全に保管する必要があります。効果的なデータガバナンス戦略を導入することで、組織は不正アクセスからデータを保護し、規制要件へのコンプライアンスを確保しながら、データ主導の意思決定のためにデータをすぐに利用できるようになります。

データガバナンスの課題に対処するため、Databricks はレイクハウス上のデータと AI アセットの統合ガバナンスソリューションである Unity Catalog を開発しました。Unity Catalog は、クラウドの種類やプラットフォームを問わず、構造化データ、非構造化データ、ML モデル、ノートブック、ダッシュボード、ファイルなどのさまざまなデータやデータアセットのシームレスな管理を可能にします。データサイエンティスト、アナリスト、エンジニアは、Unity Catalog を利用することで、信頼性の高いデータと AI アセットをセキュアに検索/アクセス/コラボレーションできるようになります。

データセットの共有

データサイエンティストの多くは、データセットを収集・分析するだけでなく、それを共有したいと考えています。データの共有は、より多くのつながりと協力を促進し、重要な新しい発見をもたらす可能性があります。Delta Sharing は、Unity Catalog に統合されたオープンソースツールです。データサイエンティストやアナリストが、クラウド、リージョン、プラットフォーム間でデータや AI アセットを簡単に共有し、独自のフォーマットや複雑な ETL プロセス、コストのかかるデータ複製に依存することなく、新たな収益源を開拓してビジネス価値を推進します。

用語集に戻る