用語集

データベースやデータストレージシステムにおけるトランザクションとは、1 つの作業単位として扱われるあらゆる操作のことです。トランザクションは、完全に実行される、もしくは全く実行されないかのいずれかで、ストレージシステムを一貫した状態に保ちます。{. . .}
機械学習や深層学習における最適化のための最も一般的なアルゴリズムの1つに、勾配降下法があります。勾配降下法は機械学習モデルのトレーニングに使用されます。勾配降下法の種類には、{. . .}
オルタナティブデータ(代替データとも呼ばれる)とは、従来のソースではなく、他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで、業界標準のデータソースでは得ることができない洞察を取得することが可能です。ただし、正確には{. . .}
Anomaly Detection is the technique of identifying rare events or observations which can raise suspicions by being statistically different from the rest of the observations. Such “anomalous” behavior typically translates to some kind of a problem like credit card fraud, a failing machine, or a cy {. . .}
Apache Kuduとは、Apache Hadoop向けに開発された無料のオープンソースの列指向ストレージシステムです。造化データ用エンジンで、各行への低遅延でランダムなミリ秒スケールのアクセスに加えて、優れたアクセスパターン分析もサポートします。{. . .}
Apache Kylinとは、ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache KylinはHadoopやSparkでSQLインターフェイスと多次元分析(OLAP)を提供するよう設計されています。さらに、ODBCドライバ、JDBCドライバ、REST APIを介してBIツールと容易に統合します。{. . .}
Apache Sparkとは:Apache Sparkは、ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタイム分析とデータ処理のワークロードに加えて、両方のバッチ処理が可能です。Apache Sparkは2009年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。{. . .}
Apache Sparkは、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Sparkは、カリフォルニア大学バークレー校のAMPLabで2009年に研究が開始されて以来、目覚ましい発展を遂げてきました。Apache Sparkは現在、50を超える組織から200名以上が参加する、ビッグデータの最大のオープンソースコミュニティとして位置付けられています。{. . .}
人工ニューロンネットワーク(ANN)とは、人間の脳のニューロンの動作を模したコンピューティングシステムです。人工ニューラルネットワークの仕組みは?ANNは、階層で構成される重み付き有向グラフにするとわかりやすく、これらの{. . .}
自動化バイアスとは、自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており、集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な状況下での利用も一般的になりつつあります。 {. . .}
ベイジアンニューラルネットワーク(BNN)とは、過学習の制御を目的として、事後確率推定により標準ネットワークを拡張することを指します。広い視点からみると、ベイジアン手法は統計的方法論を使用して、モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む、あらゆるものがそれに付随する確率分布を持つようにすることです。{. . .}
Hadoopが開発される以前は、最新のストレージと計算システムの基盤となる技術には限りがあり、企業での分析は「スモールデータ」に制限されていました。{. . .}
バイオインフォマティクスは、膨大な生物学のデータのコレクションから知識を抽出するために計算を使用する研究分野です。{. . .}
Catalystオプティマイザとは、Spark SQLで主要な役割を果たす最適化機能です。Scalaのパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し、拡張可能なクエリオプティマイザを構築します。CatalystはScalaの関数型プログラミング構造に基づいており、次の2つの主要な目的を想定して設計されています。{. . .}
複合イベント処理(CEP)とは、イベント処理、ストリーム処理、あるいはイベントストリーム処理とも呼ばれ、データベースにデータを格納する前か、場合によっては格納せずに、データを照会する技術を使用した処理です。複合イベント処理は、多くの異なる情報を集約するのに有用で、{. . .}
連続実行アプリケーションとは、データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は、このアプリケーションを活用することで、単一のプログラミングインターフェイスを使用して、クエリの提供やバッチジョブとの対話など、現在別々のシステムで処理されている連続実行アプリケーションの側面をサポートすることができます。{. . .}
深層学習において、畳み込みニューラルネットワーク(CNNまたはConvNet)はディープニューラルネットワークの1つの手法です。画像内のパターン認識に通常使用されますが、空間データ分析、コンピュータビジョン、自然言語処理、信号処理など様々な用途に対する導入事例もあります。{. . .}
データ分析プラットフォームとは、膨大で複雑な動的データの分析に必要なサービスとテクノロジーのエコシステムです。企業が所有する各種ソースからのデータの取得、結合、連動、検索、視覚化を可能にします。包括的なデータ分析プラットフォームには、{. . .}
データレイクとは、膨大なデータを未加工のネイティブ形式で保存する一元管理のリポジトリです。多種多様な大量データの編成に利用されます。データをファイルやフォルダ内に格納する階層型データウェアハウスと比較して、データレイクでは、フラットなアーキテクチャでデータを格納するという異なる手段を使用します。{. . .}
データレイクハウスとは、データレイクの柔軟性、経済性、スケーラビリティとデータウェアハウスのデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャです、あらゆるデータにおけるビジネスインテリジェンス(BI)と機械学習(ML)を可能にします。データレイクハウスは{. . .}
データウェアハウスとは、レポート作成や分析に利用するために、組織内の業務システムや外部データソースから発生したデータを収集するシステムです。データウェアハウスは、情報の中央リポジトリ来の運用データストアではアクセスや存在が困難な現在および過去の意思決定支援情報をユーザーに提供{. . .}
Databricks Runtime は、データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。Sparkはもちろん、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも数多く追加されています。Databricks Runtimeが他のランタイムよりも優れている点は次のとおりです。{. . .}
DataFrameとは、最も一般的な構造化 API です。単に行と列を含むデータのテーブルを表します。列のリストとそれらの列のタイプがスキーマで、簡単な例としては、名前付きの列があるスプレッドシートが挙げられます。スプレッドシートとの根本的な違いは、{. . .}
Datasetとは、JavaおよびScala用のタイプセーフなSparkの構造化APIです。PythonおよびRは動的型付け言語であるため、この APIの使用はできませんが、Scalaや Java で大規模なアプリケーションを作成するための強力なツールです。DataFrameは、Row型のオブジェクトの分散型コレクションであり、 {. . .}
深層学習とは、人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械学習のサブセットです。そのため、深層学習モデルはディープニューラルネットワークと呼ばれます。そのため、深層学習モデルはディープニューラルネットワークと呼ばれます。{. . .}
高密度テンソルとは、すべての値が示される連続したメモリのブロックに値を格納する幾何概念です。テンソルまたは多次元配列は、多様な多次元データ分析アプリケーションで使用されます。テンソル計算を実行できるソフトウェア製品は数多くあります。{. . .}
DNAシーケンスとは、DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。塩基としても知られる4つの化学構成要素(アデニン、グアニン、シトシン、チミン)の順序のDNAシーケンシングは、DNA分子内で発生します。DNAシーケンシングの最初の手法は、{. . .}
Elasticsearchとは、ドキュメント指向および半構造化データを格納、取得、管理するNoSQL分散データベースです。さらに、Elasticsearchは、Apache Lucene上に構築され、Apacheライセンスの条件下でリリースされた、オープンソースのRESTful検索エンジンでもあります。Elasticsearchは、Javaベースであるため{. . .}
ゲノミクスとは、生物のゲノムのシーケンシングと分析に関する遺伝学の一分野です。その主な役割は、DNAのシーケンス全体、またはDNAを構成する原子の組成、およびDNA原子間の化学結合を決定することです。ゲノミクスの分野は、{. . .}
Hadoopとは?Apache Hadoopとは、ビッグデータアプリケーションのデータ処理とストレージを管理するオープンソースのJavaベースのソフトウェアプラットフォームです。Hadoop は、コンピューティングクラスタ内のノード間で大規模なデータセットと分析ジョブを分散させ、それらを並列実行できる小さなワークロードに分割します。{. . .}
Hadoopクラスタとは?Apache Hadoopとは、オープンソースのJavaベースのソフトウェアフレームワークで、並列データ処理エンジンです。アルゴリズム(MapReduce アルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し、{. . .}
Hadoopエコシステムとは?Apache Hadoopエコシステムとは、Apache Hadoopソフトウェアライブラリのさまざまなコンポーネントを指します。オープンソースプロジェクトだけでなく、補足ツールのすべてが含まれます。Hadoopエコシステムの最もよく知られているツールは{. . .}
コンピューティングにおけるハッシュテーブル [ハッシュマップ] とは、キー [一意の文字列または整数] に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは、バケットやスロットの配列にインデックス計算を行うために、ハッシュ関数を使用し、そこから目的の値をみつけます。{. . .}
Hiveでは、データの処理や照会を行う際に役立つ多くの組み込み関数を提供しています。これらの関数が提供する機能には、文字列操作、日付操作、型変換、条件演算子、数学関数などがあります。{. . .}
Apache Sparkとは、2009年にUCバークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Sparkは、Scala、Java、Python、Rの高レベルAPI と、データ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。{. . .}
Kerasとは、TheanoとTensorflow上に構築された深層学習のためのハイレベルのライブラリです。Kerasは、Pythonで記述され、深層学習モデルの範囲を作成するためのクリーンで便利な方法を提供します。Kerasは、ニューラルネットワークの開発とテストに関して最も使用されている高レベルのニューラルネットワークAPIの1つです。{. . .}
ラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。ラムダアーキテクチャは {. . .}
Apache Spark の機械学習ライブラリ(MLlib)とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決ではなく、データの問題とモデルに集中できます。{. . .}
マネージドSparkは、バッチ処理、クエリ、ストリーミング、機械学習などのオープンソースのデータツールを利用できるマネージドサービスです。ユーザーは、このような自動化を使用することで、オンデマンドでクラスタの迅速な作成や管理を容易し、タスクが完了したときにクラスタをオフにすることができます。{. . .}
通常、機械学習アルゴリズムを実行する際には、前処理、特徴抽出、モデル適合、検証など一連のステージのタスクが含まれます。例えば、テキスト文書を分類する場合、テキストのセグメンテーションやクリーニング、特徴量の抽出、交差検証での分類モデルのトレーニングなどがあります。{. . .}
Model risk management refers to the supervision of risks from the potential adverse consequences of decisions based on incorrect or misused models. The aim of model risk management is to employ techniques and practices that will identify, measure and mitigate model risks i.e. the possibility of mode {. . .}
ニューラルネットワークとは、層状構造が人間の脳内にあるニューロンのネットワーク構造に類似した数理モデルです。ニューロンと呼ばれる相互に結合する処理要素を特徴としており、出力機能を生成します。ニューラルネットワークは、入力層と出力層で構成されており{. . .}
What is Orchestration? Orchestration is the coordination and management of multiple computer systems, applications and/or services, stringing together multiple tasks in order to execute a larger workflow or process. These processes can consist of multiple tasks that are automated and can i {. . .}
Pandasとは、プログラミング言語Pythonでデータ分析を行うためのライブラリです。オープンソース(BSDライセンス)で公開されており、高速で適応性の高いデータ構造を提供します。この使いやすいデータ操作ツールは、ウェス・マッキニー氏が開発したものでNumPyパッケージ上に構築されています。{. . .}
Parquetとは、Hadoopエコシステムの各種プロジェクトで利用可能なオープンソースのファイルフォーマットです。Apache Parquetは、CSVやTSVファイルのような行指向ファイル形式に対し、効率的で高性能な列指向ストレージ形式です。{. . .}
予測分析とは、新しいデータと過去のデータを活用してパターンを見つけ出し、将来の結果や傾向を予測する高度な分析手法です。予測分析では、統計分析技術、分析クエリ、データマイニング、予測モデリング、自動機械学習アルゴリズムなどの多くの技術をデータセットに使用して、{. . .}
PyCharmとは、コンピュータプログラミングで使用される統合開発環境(IDE)です。プログラミング言語Python用に作成されています。PyCharmをデータブリックスで使用する場合、デフォルトではPyCharm はPythonの仮想環境を作成しますが、Conda環境の作成や既存環境の使用設定が可能です。{. . .}
Apache Spark は、プログラミング言語Scalaで記述されています。PySparkとは、Sparkを実行するためのPython APIです。Apache Spark とPython のコラボレーションをサポートするためにリリースされました。PySparkは、Apache Sparkとプログラミング言語PythonでのResilient Distributed Dataset(RDD)とのインターフェイスもサポートしており、{. . .}
レジリエントな分散データセット(RDD)とは、Sparkのリリース以降、Sparkの最も基本的なユーザー向けAPIです。コアとなるRDDは、クラスタ内のノード間で分割されたデータ要素の不変の分散コレクションで、{. . .}
Sparkには、DataFrame、Dataset、レジリエントな分散データセット(RDD)の3つのAPIがあります。レジリエントな分散データセット(RDD)は、分散コンピューティングを用いたレコードコレクションです。フォールトトレラントで不変な性質を有しています。{. . .}
Sparkアプリケーションとは、ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは、main()関数を実行し、クラスタのノード上で動作します。また、3つの役割があり{. . .}
多くのデータサイエンティスト、アナリスト、一般的なビジネスインテリジェンスユーザーは、データの解析に対話型の SQL クエリに活用しています。Spark SQL は、構造化データ処理のための Spark モジュールです。DataFrames と呼ばれるプログラミングの抽象化が可能で、{. . .}
SparkストリーミングとはApache Sparkストリーミングとは、スケーラブルで耐障害性に優れた特性を持つストリーミング処理システムです。バッチ処理とストリーミング処理のワークロードをネイティブにサポートしています。Spark ストリーミングは、コアのSpark APIを拡張したもので、{. . .}
SparkパフォーマンスチューニングとはSparkパフォーマンスチューニングとは、システムが使用するメモリやコア、インスタンスなどを記録するための設定を調整する処理のことです。この処理により、Sparkは優れた性能を発揮し、リソースのボトルネックの防止も可能になります。{. . .}
Sparklyrとは、R言語とApache Spark間のインターフェースを提供するオープンソースのパッケージです。Sparkでは、分散データを低レイテンシで扱えるため、Sparkの機能を最新のR環境で活用することができるようになりました。Sparklyrは、インタラクティブな環境にある大規模なデータセットと連動する {. . .}
SparkRとは、R言語をSpark上で動作させるためのツールです。Sparkの他の言語バインディングと同じ原理に基づいています。SparkRを使用するには、環境にインポートしてコードを実行するだけです。PythonではなくR言語の構文に従っていることを除けば、Python APIと非常に類似しています。{. . .}
Pythonには、多次元配列を操作するNumPyと呼ばれるビルトインライブラリがあります。PyTensorライブラリを開発するには、NumPyを使用することが第一の要件となります。{. . .}
ストリーミング分析の仕組み:ストリーミング分析(イベントストリーム処理とも呼ばれる)とは、イベントストリームという連続クエリを使用して、現在のデータと移動中のデータの膨大なデータプールを分析することです。このイベントストリームは、金融取引、設備故障、ソーシャルメディアへの投稿{. . .}
構造化ストリーミングとは、ストリーミングデータを処理するための高レベルAPIです。Spark 2.2で実運用が可能になりました。構造化ストリーミングでは、Sparkの構造化APIを使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、 {. . .}
TensorFlowとは、2015年11月にGoogleがリリースした機械学習用のオープンソースフレームワークです。CPU、GPUおよびGPUクラスターでの深層学習、ニューラルネットワーク、一般的な数値計算をサポートしています。{. . .}
Estimatorは、完全な高位モデルを表しますが、多くのユーザーにとって直観的ではないようです。Estimator APIとは、モデルを訓練して、その精度を評価し、推論を作成するためのメソッドを提供する高レベルAPIです。下の図のように、TensorFlow は複数のAPI層からなるプログラミングスタックを提供します。{. . .}
Sparkでは、コアとなるデータ構造は不変であり、一度作成したデータ構造は変更できないため、実際に使用する際に、最初はこの概念に疑問を抱くかもしれません。SparkでDataFrameを変更するためには、Sparkに対し、既存のDataFrameをどのように修正したいかを指示する必要があります。{. . .}
Tungsten は、Apache Spark の実行エンジンを変更する包括プロジェクトのコードネームです。Spark アプリケーション向けのメモリと CPU の効率を大幅に向上させることに重点を置き、性能を最新のハードウェアの限界に近づけます。Tungsten プロジェクトに含まれるイニシアティブ{. . .}
統合人工知能( UAI )は、開発者カンファレンス「F8 」でFacebook によって発表されました。UAIは Facebook 主導で開発された、PyTorchとCaffeの2つの深層学習フレームワークを統合したもので、PyTorchは大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦点を当て、Caffeは、Android や Raspberry Pi デバイスのモデル展開に焦点を当てています。{. . .}
統合データ分析とは、データ処理を AI 技術と統合する新しいカテゴリのソリューションです。企業組織にとってのAIの実現可能性を格段に高め、AIへの取り組みを加速化させます。統合データ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、 {. . .}
データブリックスの統合データ分析プラットフォームは、データサイエンスをエンジニアリングとビジネスに統合し、組織のイノベーションを加速させます。データブリックスを統合データ分析プラットフォームとして使用することで、大規模なデータを制限なく迅速に準備し、クリーンアップすることができます。
{. . .}
統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は、業務に関わるあらゆるデータを保持し、エンタープライズ全体でのアクセスが可能な統合データベースです。今日、多くの企業においてデータはサイロ化されています。同じ組織内の異なるそれぞれの部門で、多様なデータをさまざまなツールで管理しています。 {. . .}