Revenir au contenu principal

Glossary

A-Z

La descente de gradient est la méthode d'optimisation la plus couramment employée par les algorithmes de machine learning et de deep learning. Elle est utilisée pour entraîner les modèles de machine learning. Types de descente de gradient Les algorit{...}
L'Unified Data Analytics désigne une nouvelle catégorie de solutions unifiant le traitement des données et les technologies d'IA. Son but est de mettre l'IA à la portée des entreprises pour les aider à accélérer leurs initiatives dans le domaine. Ave{...}
Comment fonctionne l’analytique en streaming ? L’analytique en streaming, également connu sous le nom de traitement de flux d’événements, est l’analyse d’énormes pools de données courantes et « en mouvement » en utilisant des requêtes{...}
En quoi l’analytique Big Data diffère-t-elle de l’analytique de données ? Avant Hadoop, les technologies sur lesquelles reposaient les systèmes modernes de stockage et de traitement étaient assez rudimentaires. C’est pourquoi les entreprises se {...}
Qu'est-ce que l'analytique en temps réel ? L'analytique en temps réel consiste à collecter et analyser des données de streaming au fur et à mesure qu'elles sont générées, avec un minimum de latence entre leur création et leur analyse.L'analytiqu{...}
Qu'est-ce que l'analytique prédictive ? L'analytique prédictive est une forme d'analytique avancée qui s'appuie sur des données à la fois nouvelles et historiques. L'objectif est de reconnaître des modèles et prédire des tendances et des résulta{...}
Qu'est-ce qu'Apache Hive ? Apache Hive est un logiciel open source de data warehouse conçu pour lire, écrire et gérer de grands datasets extraits du système de fichiers distribué Hadoop (HDFS), qui est un composant de l'écosystème Hadoop. Bénéfi{...}
Qu'est-ce qu'Apache Kudu ? Apache Kudu est un système gratuit et open source de stockage en colonnes, développé pour Apache Hadoop. Destiné aux données structurées, ce moteur fournit un accès aléatoire à faible latence, à l'échelle de la millise{...}
What is Apache Kylin? Apache Kylin is a distributed open source online analytics processing (OLAP) engine for interactive analytics Big Data. Apache Kylin has been designed to provide SQL interface and multi-dimensional analysis (OLAP) on Hadoop/Spar{...}
Qu'est-ce qu'Apache Spark ? Apache Spark est un moteur d'analytique open source utilisé dans le traitement du big data. Il est capable de traiter aussi bien des données en batch que des charges d'analytique et de traitement des données en temps {...}
Qu'est-ce qu'Apache Spark-as-a-Service ? Apache Spark est un framework open source de calcul en cluster destiné au traitement rapide de données volumineuses en temps réel. Depuis sa création en 2009 au laboratoire AMPLab de l'Université de Calif{...}
Qu’est-ce que l’API Tensorflow Estimator ? Les estimateurs représentent des modèles complets et intuitifs, adaptés à un public restreint. L’API Estimator fournit des méthodes pour entraîner le modèle, évaluer sa précision et générer des prédicti{...}
Les applications continues sont des applications de bout en bout qui réagissent aux données en temps réel. En effet, les développeurs souhaitent pouvoir utiliser une même interface de programmation pour prendre en charge certains aspects des applicat{...}
Les applications Spark se composent d’un processus driver et d’un ensemble de processus exécuteurs. Le processus driver exécute votre fonction main(), tourne sur un nœud du cluster et prend en charge trois tâches : gérer les informations sur l’a{...}
Qu'est-ce qu'une architecture en médaillon ? Une architecture en médaillon est un schéma de conception des données pensé pour organiser les données de façon logique dans un lakehouse. Il vise à améliorer leur structure et leur qualité de façon i{...}
Qu’est-ce que l’architecture Lambda ? L’architecture Lambda est une façon de traiter d’énormes volumes de données, commele Big Data. Elle permet d’accéder aux méthodes de traitement par batch et en streaming avec une approche hybride. Cette arch{...}
Avec l’augmentation du volume de données, de leurs sources et de leurs types, les entreprises ont de plus en plus besoin d’outils et de stratégies pour les aider à transformer ces données et à en tirer des insights commerciaux. Le traitement des donn{...}
Qu'est-ce qu'un biais d'automatisation ? Le biais d'automatisation désigne l'excès de confiance accordée aux assistants automatisés et aux systèmes d'aide à la décision. Les aides automatiques à la décision se généralisent dans des contextes cri{...}
La bio-informatique est un domaine d'étude qui s'appuie sur le calcul informatique pour extraire des connaissances de vastes ensembles de données biologiques. La bio-informatique désigne l'utilisation de l'informatique dans les biotechnologies, dans {...}
Le cœur de Spark SQL repose sur Catalyst optimizer, qui utilise de manière innovante des capacités avancées de codage (telles que le pattern matching et les quasiquotes de Scala) pour créer un optimiseur de requêtes extensible. Catalyst est basé sur {...}
Qu'est-ce qu'un cluster Hadoop ? Apache Hadoop est un framework logiciel et un moteur de traitement des données open source basé sur Java. Il permet de diviser les tâches de traitement analytique Big Data en tâches plus petites qui peuvent être {...}
En informatique, une table de hachage [tableau de hachage] est une structure de données qui donne un accès quasi direct aux objets grâce à une clé [une chaîne ou un nombre entier unique]. Une table de hachage utilise une fonction de hachage pour calc{...}
What is Complex Event Processing [CEP]? Complex event processing [CEP] also known as event, stream or event stream processing is the use of technology for querying data before storing it within a database or, in some cases, without it ever being stor{...}
En deep learning, les réseaux de neurones convolutifs (CNN ou ConvNet) sont un type de réseaux de neurones profonds généralement utilisés pour reconnaître des motifs présents dans les images. Ils sont également utilisés pour l’analyse de données spat{...}
Qu'est-ce qu'un data lakehouse ? Le data lakehouse est une nouvelle architecture, ouverte, de gestion des données. Il associe la souplesse, le faible coût et l'échelle des data lakes aux possibilités de gestion et aux transactions ACID des data {...}
Qu'est-ce qu'une data marketplace, ou un marché de données ? Les data marketplaces, ou marchés de données, sont des boutiques en ligne qui facilitent le partage des données et la collaboration. Ils mettent en relation des fournisseurs et des con{...}
Qu'est-ce qu'un data mart ? Un data mart est une base de données organisée et maintenue qui regroupe des tables devant répondre aux besoins spécifiques d'une équipe data, d'une communauté ou d'un domaine d'activité, comme le service marketing ou{...}
Qu'est-ce qu'un data vault ? Un data vault est un modèle de conception pour la modélisation de données qui permet de créer un data warehouse à des fins d'analytique à l'échelle de l'entreprise. Le data vault comprend trois types d'entités :{...}
Qu'est-ce qu'un data warehouse ? Un data warehouse est un système de gestion des données qui conserve les données actuelles et historiques de multiples sources sous une forme orientée entreprise pour faciliter la création d'insights et de rappor{...}
Qu'est-ce qu'un data warehouse unifié ? Une base de données unifiée, ou data warehouse d'entreprise, contient toutes les informations commerciales d'une organisation et les met à la disposition de l'ensemble des équipes. La plupart des entrepris{...}
La data science est capable de transformer la façon dont votre entreprise fonctionne. Pour exploiter tout son potentiel, rien de plus simple que d’utiliser DataFrame Pandas. Pour ce faire, il vous faudra utiliser des structures de données appropriée{...}
Qu'est-ce qu'un DataFrame ? Un DataFrame est une structure qui organise les données en tables bidimensionnelles de lignes et de colonnes, comparables à une feuille de calcul. Les DataFrames font partie des structures de données les plus couramme{...}
Qu'est-ce que le deep learning ? Le deep learning est un domaine du machine learning qui consiste à appliquer à de grandes quantités de données des algorithmes inspirés de la structure et du fonctionnement du cerveau humain. Pour cette raison, l{...}
Les dense tensors stockent des valeurs dans des blocs de mémoire séquentiels et contigus où toutes les valeurs sont représentées. Les tensors, ou tableaux multidimensionnels, sont employés dans un large éventail d'applications d'analyse de données mu{...}
Que sont les données alternatives ? Les données alternatives sont des informations collectées auprès de sources alternatives que les autres acteurs n'exploitent pas – autrement dit, des sources de données non traditionnelles. L'analyse des donné{...}
La détection d'anomalies est une technique consistant à identifier les événements ou les observations rares qui peuvent justifier des soupçons en raison de leur différence statistique par rapport aux autres. Ces comportements « anormaux » s{...}
Qu'est-ce que l'efficacité globale de l'équipement ? L'efficacité globale de l'équipement (OEE, pour Overall Equipment Effectiveness) est un indicateur de l'utilisation d'une installation de fabrication (locaux, temps et matériel) par rapport à {...}
Ingénierie de fonctionnalité pour le machine learning L'ingénierie de fonctionnalité, également appelée prétraitement des données, consiste à convertir les données brutes en fonctionnalités utilisables pour développer des modèles de machine learning.{...}
Qu'est-ce que l'ETL ? La quantité de données, de sources et de types ne cesse d'augmenter, tout comme l'importance d'exploiter ces données dans le cadre d'initiatives d'analytique, de data science et de machine learning pour en tirer des insight{...}
Qu'est-ce que la finance personnalisée ? Les produits et services financiers se normalisent de plus en plus. Les clients, encouragés par les pratiques du secteur des médias et de la vente au détail, attendent une expérience toujours plus personn{...}
Qu'est-ce qu'une fonction de données dans Hive ? Hive propose de nombreuses fonctions intégrées qui facilitent le traitement et l'interrogation des données. Elles permettent notamment de manipuler des chaînes et des données, de convertir des typ{...}
L'intelligence artificielle unifiée, ou IAU, a été annoncée par Facebook à l'occasion de F8 cette année. Ce concept réunit deux frameworks de deep learning créés et externalisés par Facebook : d'un côté PyTorch, centré sur la recherche et reposa{...}
Qu'est-ce que la gestion de la chaîne d'approvisionnement ? La gestion de la chaîne d'approvisionnement (supply chain) consiste à planifier, mettre en œuvre et contrôler les opérations de la chaîne d'approvisionnement, dans le but de produire et{...}
Qu'est-ce que la gouvernance des données ? La gouvernance des données est une pratique de supervision qui vise à garantir la valeur des données et leur capacité à soutenir la stratégie de l'entreprise. La gouvernance des données n'est pas simple{...}
Que sont les grands modèles de langage (LLM) ? Les grands modèles de langage (LLM) représentent une nouvelle classe de modèles de traitement du langage naturel (NLP). Leurs performances et leurs capacités surpassent considérablement celles de le{...}
La génomique est un domaine de la génétique qui s'intéresse au séquençage et à l'analyse du génome d'un organisme. Sa mission principale est d'établir la séquence complète d'une chaîne d'ADN ou la composition des atomes qui composent l'ADN, ainsi que{...}
Qu'est-ce que la génération augmentée de récupération, ou RAG ? La génération augmentée de récupération, ou RAG, est une approche architecturale capable d'améliorer l'efficacité des applications de grands modèles de langage (LLM) en exploitant d{...}
L'IA générative change la façon dont les humains créent, travaillent et communiquent. Databricks explique comment fonctionne l'IA générative et où elle se dirige ensuite. {...}
Qu'est-ce qu'un dataset ? Un dataset est une collection structurée de données, organisées et stockées à des fins d'analyse ou de traitement. Les données d'un dataset ont généralement des points communs et proviennent d'une même source, ou sont d{...}
Qu'est-ce qu'un jumeau numérique ? Selon la définition classique, un jumeau numérique est « un modèle virtuel conçu pour être le reflet exact d'un objet physique. » – IBM[KVK4] Dans le cas d'un processus de fabrication discret ou conti{...}
Qu'est-ce que Lakehouse for Retail ? Lakehouse for Retail est le premier lakehouse Databricks spécialement pensé pour un secteur d'activité. Il aide les détaillants à prendre rapidement en main les accélérateurs de solutions, les capacités de pa{...}
À quoi servent les données en temps réel pour la vente au détail ? La vente au détail en temps réel s'appuie sur un accès en temps réel aux données. En abandonnant l'approche batch de l'accès, de l'analyse et du calcul, les données deviennent co{...}
Qu’est-ce qu’un modèle de machine learning ? Un modèle de machine learning est un programme capable de trouver des modèles ou de prendre des décisions à partir d’un tout nouveau dataset. Par exemple, dans le traitement du langage naturel, les mo{...}
Qu’est-ce qu’un LLMOps ? Un LLMOps (Large Language Model Ops) est un ensemble de pratiques, de techniques et d’outils utilisés pour la gestion opérationnelle des grands modèles de langage (LLM, Large Language Model) dans des environnements de pr{...}
La bibliothèque Machine Learning Library (MLlib) d’Apache Spark est conçue pour être simple, évolutive et facile à intégrer à d’autres outils. Grâce à l’évolutivité, à la compatibilité avec plusieurs langages et à la rapidité de Spark, les data scien{...}
Qu'est-ce que la maintenance prédictive ? Pour résumer, la maintenance prédictive consiste à déterminer à quel moment un équipement doit être entretenu et quelles activités de maintenance doivent être réalisées précisément. Elle tient compte de {...}
Qu’est-ce que MapReduce ? MapReduce est un framework d'exécution distribué en Java au sein de l'écosystème Apache Hadoop. Il élimine la complexité de la programmation distribuée en exposant deux étapes de traitement implémentées par les développ{...}
Que sont les MLOps ? MLOps signifie Machine Learning Operations, ou opérations de machine learning. Fonction fondamentale de l'ingénierie du machine learning, les MLOps ont pour mission de normaliser le processus de mise en production des modèle{...}
Un modèle de gestion des risques désigne la supervision des risques liés aux conséquences négatives éventuelles des décisions basées sur des modèles incorrects ou mal utilisés. Le but d’un modèle de gestion des risques est d’employer des techniques e{...}
Qu’est-ce qu’un modèle Keras ? Keras est une bibliothèque de haut niveau pour le deep learning, basée sur Theano et TensorFlow. Écrite en Python, elle offre une solution facile et pratique pour créer une gamme de modèles de deep learning. K{...}
Multi-Statement Transactions for Databricks Delta Tables Databricks has support for multi-statement transactions if the underlying tables are Databricks Delta tables.  This means that all of the statements within the transaction will be atomic ({...}
Qu'est-ce qu'un notebook Jupyter ? Un notebook Jupyter est une application Web open source qui permet aux data scientists de créer et de partager des documents comprenant du code en direct, des équations et d'autres ressources multimédias. Quels{...}
Qu'est-ce que l'open banking ? L'open banking est un moyen sécurisé de fournir un accès aux données financières des consommateurs, à la stricte condition qu'ils aient donné leur consentement.² Sous l'impulsion de dynamiques réglementaires, techn{...}
Qu’est-ce que l’orchestration ? L’orchestration est la coordination et la gestion de plusieurs systèmes informatiques, applications et/ou services, qui enchaînent des tâches multiples afin d’exécuter des workflows ou des processus plus larges. C{...}
Parquet, qu'est-ce que c'est ? Apache Parquet est un format de fichier de données open source en colonnes, conçu pour stocker et récupérer des données avec une grande efficacité. Il fournit d'excellents schémas de compression et d'encodage des d{...}
Qu’est-ce que le partage de données ? Le partage de données est la capacité de mettre les mêmes données à la disposition d’un ou de plusieurs consommateurs. De nos jours, la quantité sans cesse croissante de données est devenue un asset stratégi{...}
Si votre rôle implique d'interagir avec les données, vous avez nécessairement rencontré un pipeline de données, que vous l'ayez su ou non. Actuellement, de nombreuses organisations emploient un éventail de plateformes et de technologies cloud pour me{...}
En règle générale, l’exécution d’algorithmes de machine learning implique une séquence de tâches comprenant le prétraitement, l’extraction de fonctionnalités, l’ajustement du modèle et les étapes de validation. Par exemple, la classification de docum{...}
Qu’est-ce qu’une plateforme d’analyse de données ? Une plateforme d’analyse de données est un écosystème de services et de technologies permettant d’effectuer des analyses sur des données volumineuses, complexes et dynamiques. Elle permet de ré{...}
Qu'est-ce que la prévision de la demande ? La prévision de la demande consiste à établir une projection de la demande des clients (et donc des revenus futurs). Plus spécifiquement, elle projette l'assortiment de produits que les consommateurs vo{...}
PyCharm est un environnement de développement intégré (IDE) utilisé dans la programmation informatique et créé pour le langage de programmation Python. Par défaut, PyCharm crée un environnement virtuel Python quand il est utilisé sur Databricks. Cep{...}
Qu'est-ce que PySpark ? Apache Spark est écrit dans le langage de programmation Scala. PySpark a été créé pour soutenir la collaboration d'Apache Spark et de Python : concrètement, c'est une API Python pour Spark. De plus, PySpark joue le r{...}
Apache Hadoop est une plateforme logicielle open source conçue en Java. Elle gère le traitement et le stockage des données pour les applications Big Data. Elle fonctionne en répartissant les jobs d’analytique et de Big Data Hadoop sur les nœuds d’un {...}
Le RDD était à l'origine la principale API côté utilisateur dans Spark.Fondamentalement, un RDD est une collection distribuée immuables d'éléments de données, répartis sur les nœuds de votre cluster, et que vous pouvez exploiter en parallèle à l'aid{...}
Databricks Runtime est un ensemble d’artefacts logiciels qui s’exécutent sur les clusters de machines gérés par Databricks. Il inclut Spark et il est aussi doté d’un certain nombre de composants et de mises à jour qui améliorent considérablement la {...}
Qu’est-ce qu’un réseau de neurones ? Un réseau de neurones est un modèle informatique qui ressemble à la structure en réseau des neurones du cerveau. Il est composé d’éléments de traitement interconnectés, appelés neurones, qui travaillent en sy{...}
Qu'est-ce qu'un réseau de neurones artificiels ? Un réseau de neurones artificiels (ANN) est un système informatique dont le fonctionnement est calqué sur celui des neurones dans un cerveau humain. Comment fonctionne un réseau de neurones artifi{...}
Que sont les réseaux de neurones bayésiens ? Les réseaux de neurones bayésiens (BNN) sont des réseaux standards étendus auxquels s'ajoute une inférence ultérieure visant à contrôler le surajustement. D'un point de vue plus large, l'approche bayé{...}
Qu’est-ce qu’un schéma en flocon de neige ? Un schéma en flocon de neige est un modèle de données multidimensionnel qui est une extension d’un schéma en étoile. Dans ce type de schéma, les tables de dimension sont décomposées en sous-dimensions.{...}
Qu'est-ce qu'un schéma en étoile ? Un schéma en étoile est un modèle de données multidimensionnel qui permet d'organiser une base de données afin de faciliter sa compréhension et son analyse. Les data warehouses, les bases de données, les data m{...}
Si vous travaillez avec Spark, vous croiserez certainement trois API : DataFrames, Datasets et RDD. Que sont les Resilient Distributed Datasets ? Les RDD, ou Resilient Distributed Datasets (datasets distribués résilients), sont des collecti{...}
Qu'est-ce que Spark Elasticsearch ? Spark Elasticsearch est une base de données distribuée NoSQL qui stocke, extrait et gère des données orientées document et semi-structurées. Ce moteur de recherche RESTful open source repose sur Apache Lucene.{...}
Qu'est-ce que Spark hébergé ? Développé en 2009 à l'Université de Californie à Berkeley, Apache Spark est un système de calcul en cluster rapide et généraliste. Il est conçu pour le big data et axé sur la vitesse, la simplicité d'utilisation et {...}
Qu'est-ce que Spark managé ? Un service Spark managé vous permet de profiter d'outils de données open source pour le traitement batch, l'exécution de requêtes, le streaming et le machine learning. En utilisant ce type d'automatisation, vous pouv{...}
De nombreux data scientists, des analystes – et plus généralement beaucoup d'utilisateurs de business intelligence – s'appuient sur les requêtes SQL pour explorer des données. Spark SQL est un module Spark conçu pour le traitement de données structur{...}
Apache Spark Streaming est la génération précédente du moteur de streaming d’Apache Spark. Spark Streaming ne bénéficie plus de mises à jour. Il s’agit d’un projet obsolète. Il existe un moteur de streaming plus récent et plus facile à utiliser dans {...}
Qu'est-ce que l'ajustement des performances Spark ? L'ajustement des performances Spark consiste à modifier les paramètres de mémoire, de cœurs et d'instances utilisés par le système. Ce processus permet à Spark d'offrir des performances irrépro{...}
Qu'est-ce que Sparklyr ? Sparklyr est un paquet open source qui fournit une interface entre R et Apache Spark. Vous pouvez désormais exploiter les capacités de Spark dans un environnement R moderne, car Spark peut interagir avec les données{...}
SparkR est un outil qui permet d'exécuter R sur Spark. Il se conforme aux mêmes principes que toutes les autres liaisons de langage de Spark. Pour utiliser SparkR, il suffit de l'importer dans votre environnement et d'exécuter votre code. Il ressembl{...}
Le streaming structuré est une API de haut niveau pour le traitement des flux qui a été mise en production dans Spark 2.2. Le streaming structuré vous permet d’utiliser les API structurées de Spark pour exécuter des opérations en mode streaming,{...}
HDFS Le système de fichiers distribué Hadoop (HDFS) est le principal système de stockage utilisé par les applications Hadoop. Ce framework open source a l'avantage de transférer rapidement les données d'un nœud à l'autre. Il est couramment employé pa{...}
Dans le monde intensément connecté qui est le nôtre, les menaces de cybersécurité et les risques internes sont source d'inquiétude permanente. Les organisations doivent avoir de la visibilité sur les données qu'elles détiennent, les mettre à l'abri d{...}
Qu'est-ce que le séquençage ADN ? Le séquençage ADN est le processus qui permet de déterminer la séquence exacte des nucléotides d'ADN (acide désoxyribonucléique).  L'objectif du séquençage est d'établir l'ordre dans lequel quatre blocs chi{...}
Python fournit une bibliothèque intégrée, numpy, qui permet de manipuler des tableaux multidimensionnels. Cette bibliothèque doit impérativement être organisée et utilisée pour développer la bibliothèque pytensor. Sptensor est une classe qui représen{...}
En novembre 2015, Google a publié son cadre open source de machine learning, baptisé TensorFlow. Il prend en charge le deep learning, les réseaux de neurones et les calculs numériques généraux sur des CPU, des GPU et des clusters de GPU. L'un des av{...}
Qu'est-ce qu'une transaction ? Dans le contexte des bases de données et des systèmes de stockage, une transaction est une opération traitée comme une seule unité de travail, qui aboutit entièrement ou pas du tout, et laisse le système de stockag{...}
Qu'est-ce que la transformation des données ? La transformation des données consiste à prendre les données brutes qui ont été extraites des sources et à les transformer en datasets exploitables. Les pipelines de données regroupent souvent plusie{...}
Que sont les transformations ? Dans Spark, les structures de données principales sont immuables. En d’autres termes, elles ne peuvent pas être modifiées une fois créées. Ce concept peut sembler étrange à première vue. En effet, si vous ne pouvez{...}
Qu’est-ce que le projet Tungsten ? Tungsten est le nom de code d’un projet global visant à modifier le moteur d’exécution d’Apache Spark. Il a pour but d'améliorer considérablement l’efficacité de sa mémoire et de son unité centrale pour les app{...}
La plateforme Unified Data Analytics de Databricks aide les organisations à accélérer l’innovation en unifiant data science, ingénierie et activité commerciale. En choisissant Databricks comme plateforme Unified Data Analytics, vous pouvez rapid{...}
Qu’est-ce qu’une vue matérialisée ? Une vue matérialisée est un objet de base de données qui stocke les résultats d’une requête (query) dans une table physique. Les vues matérialisées sont différentes des vues de base de données classiques qui s{...}
Qu’est-ce que l’écosystème Hadoop ? L’écosystème Apache Hadoop désigne les différents composants de la bibliothèque logicielle Apache Hadoop ; il comprend des projets open source ainsi qu’une gamme complète d’outils complémentaires. Parmi l{...}