Glossaires Archive | Databricks

Glossary

A-Z

La descente de gradient est la méthode d'optimisation la plus couramment employée par les algorithmes de machine learning et de deep learning. Elle est utilisée pour entraîner les modèles de machine learning. Types de descente de gradient Les algorit{...}

Agents IA

Les agents d'intelligence artificielle (IA) représentent une manière révolutionnaire d'exploiter la puissance de l'IA. Alors que les systèmes d'IA traditionnels doivent continuellement recevoir des instructions de la part d'un utilisateur, les a{...}

Analyses de données unifiées

L'Unified Data Analytics désigne une nouvelle catégorie de solutions unifiant le traitement des données et les technologies d'IA. Son but est de mettre l'IA à la portée des entreprises pour les aider à accélérer leurs initiatives dans le domaine. Ave{...}

Analyses de flux

Comment fonctionne l’analytique en streaming ? L’analytique en streaming, également connu sous le nom de traitement de flux d’événements, est l’analyse d’énormes pools de données courantes et « en mouvement » en utilisant des requêtes{...}

Analytique Big Data

En quoi l’analytique Big Data diffère-t-elle de l’analytique de données ? Avant Hadoop, les technologies sur lesquelles reposaient les systèmes modernes de stockage et de traitement étaient assez rudimentaires. C’est pourquoi les entreprises se {...}

Analytique en temps réel

Qu'est-ce que l'analytique en temps réel ? L'analytique en temps réel consiste à collecter et analyser des données de streaming au fur et à mesure qu'elles sont générées, avec un minimum de latence entre leur création et leur analyse.L'analytiqu{...}

Analytique prédictive

Qu'est-ce que l'analytique prédictive ? L'analytique prédictive est une forme d'analytique avancée qui s'appuie sur des données à la fois nouvelles et historiques. L'objectif est de reconnaître des modèles et prédire des tendances et des résulta{...}

Apache Hive

Qu'est-ce qu'Apache Hive ? Apache Hive est un logiciel open source de data warehouse conçu pour lire, écrire et gérer de grands datasets extraits du système de fichiers distribué Hadoop (HDFS), qui est un composant de l'écosystème Hadoop. Bénéfi{...}

Apache Kudu

Qu'est-ce qu'Apache Kudu ? Apache Kudu est un système gratuit et open source de stockage en colonnes, développé pour Apache Hadoop. Destiné aux données structurées, ce moteur fournit un accès aléatoire à faible latence, à l'échelle de la millise{...}

Apache Kylin

Qu'est-ce qu'Apache Kylin ? Apache Kylin est un moteur de traitement analytique en ligne (OLAP) distribué et open source pour l'analyse interactive des grands volumes de données. Apache Kylin a été conçu pour fournir une inte{...}

Apache Spark

Qu'est-ce qu'Apache Spark ? Apache Spark est un moteur d'analytique open source utilisé dans le traitement du big data. Il est capable de traiter aussi bien des données en batch que des charges d'analytique et de traitement des données en temps {...}

Apache Spark-as-a-Service

Qu'est-ce qu'Apache Spark-as-a-Service ? Apache Spark est un framework open source de calcul en cluster destiné au traitement rapide de données volumineuses en temps réel. Depuis sa création en 2009 au laboratoire AMPLab de l'Université de Calif{...}

API Tensorflow Estimator

Qu’est-ce que l’API Tensorflow Estimator ? Les estimateurs représentent des modèles complets et intuitifs, adaptés à un public restreint. L’API Estimator fournit des méthodes pour entraîner le modèle, évaluer sa précision et générer des prédicti{...}

Applications continues

Les applications continues sont des applications de bout en bout qui réagissent aux données en temps réel. En effet, les développeurs souhaitent pouvoir utiliser une même interface de programmation pour prendre en charge certains aspects des applicat{...}

Applications Spark

Les applications Spark se composent d’un processus driver et d’un ensemble de processus exécuteurs. Le processus driver exécute votre fonction main(), tourne sur un nœud du cluster et prend en charge trois tâches : gérer les informations sur l’a{...}

Architecture des données

Le paysage commercial a évolué, et les données et l'IA sont devenus des piliers fondamentaux pour maintenir un avantage compétitif. Les données sont un asset essentiel dans toutes les entreprises, et elles doivent être soigneusement gérées pour soute{...}

Architecture en médaillon

Qu'est-ce qu'une architecture en médaillon ? Une architecture en médaillon est un schéma de conception des données pensé pour organiser les données de façon logique dans un lakehouse. Il vise à améliorer leur structure et leur qualité de f{...}

Architecture Lambda

Qu’est-ce que l’architecture Lambda ? L’architecture Lambda est une façon de traiter d’énormes volumes de données, commele Big Data. Elle permet d’accéder aux méthodes de traitement par batch et en streaming avec une approche hybride. Cette arch{...}

Automatisation des données

Avec l’augmentation du volume de données, de leurs sources et de leurs types, les entreprises ont de plus en plus besoin d’outils et de stratégies pour les aider à transformer ces données et à en tirer des insights commerciaux. La transformation de d{...}

Base de données vectorielle

Qu'est-ce qu'une base de données vectorielle ? Une base de données vectorielle est une base de données spécialisée conçue pour stocker et gérer des données sous forme de vecteurs à haute dimension. Elle tire son nom des vecteurs, qui sont des re{...}

Biais d'automatisation

Qu'est-ce qu'un biais d'automatisation ? Le biais d'automatisation désigne l'excès de confiance accordée aux assistants automatisés et aux systèmes d'aide à la décision. Les aides automatiques à la décision se généralisent dans des contextes cri{...}

Bio-informatique

La bio-informatique est un domaine d'étude qui s'appuie sur le calcul informatique pour extraire des connaissances de vastes ensembles de données biologiques. La bio-informatique désigne l'utilisation de l'informatique dans les biotechnologies, dans {...}

Business Intelligence

Qu'est-ce que la business intelligence ?La business intelligence (BI) désigne un ensemble de technologies, de processus et de stratégies conçus pour analyser les données métier et fournir des insights exploitables. Les systèmes de BI transformen{...}

Business intelligence et analytique métier : une vue d'ensemble

La business intelligence (BI) désigne un ensemble de technologies, de processus et de stratégies conçus pour générer des insights exploitables à partir de données commerciales. Les systèmes de BI collectent et stockent les données brutes des opératio{...}

Catalyst optimizer

Le cœur de Spark SQL repose sur Catalyst optimizer, qui utilise de manière innovante des capacités avancées de codage (telles que le pattern matching et les quasiquotes de Scala) pour créer un optimiseur de requêtes extensible. Catalyst est basé sur {...}

Cluster Hadoop

Qu'est-ce qu'un cluster Hadoop ? Apache Hadoop est un framework logiciel et un moteur de traitement des données open source basé sur Java. Il permet de diviser les tâches de traitement analytique Big Data en tâches plus petites qui peuvent être {...}

Compartiments de hachage

En informatique, une table de hachage [tableau de hachage] est une structure de données qui donne un accès quasi direct aux objets grâce à une clé [une chaîne ou un nombre entier unique]. Une table de hachage utilise une fonction de hachage pour calc{...}

Comprendre la qualité des données

Plus que jamais, les organisations s'appuient sur des datasets variés et complexes pour éclairer leur prise de décision. Il est essentiel que ces données soient fiables, précises et pertinentes pour étayer des décisions stratégiques efficaces. Cet en{...}

Couche de convolution

En deep learning, les réseaux de neurones convolutifs (CNN ou ConvNet) sont un type de réseaux de neurones profonds généralement utilisés pour reconnaître des motifs présents dans les images. Ils sont également utilisés pour l’analyse de données spat{...}

Couche sémantique

Comprendre la couche sémantiqueLa couche sémantique est une interface conviviale qui comble le fossé entre les modèles de données complexes et les utilisateurs métier. Elle sert de couche d'abstraction et traduit les structures de données techniques {...}

Data Lakehouse

Qu'est-ce qu'un data lakehouse ? Le data lakehouse est une nouvelle architecture, ouverte, de gestion des données. Il associe la souplesse, le faible coût et l'échelle des data lakes aux possibilités de gestion et aux transactions ACID des data {...}

Data Lineage

What is data lineage?Data lineage is the process of recording, tracking and visualizing data and AI over time, from origin to consumption. Effective data lineage provides data teams with an end-to-end view of how data is transformed and flows across {...}

Data Marketplace

Qu'est-ce qu'une data marketplace, ou un marché de données ? Les data marketplaces, ou marchés de données, sont des boutiques en ligne qui facilitent le partage des données et la collaboration. Ils mettent en relation des fournisseurs et des con{...}

Data Mart

Qu'est-ce qu'un data mart ? Un data mart est une base de données organisée et maintenue qui regroupe des tables devant répondre aux besoins spécifiques d'une équipe data, d'une communauté ou d'un domaine d'activité, comme le service marketing ou{...}

Data Modeling

Data modeling is a key process in designing and organizing data structures to support efficient storage, retrieval and analysis of information. It is the architectural foundation for any data warehousing system, and effective data modeling can help o{...}

Data Processing

What Is Data Processing?Data processing refers to the end-to-end transformation of raw data into meaningful, actionable insights. Organizations rely on these systems to process structured and unstructured data in real time (or at scale) to make timel{...}

Data Vault

Qu'est-ce qu'un data vault ? Un data vault est un modèle de conception pour la modélisation de données qui permet de créer un data warehouse à des fins d'analytique à l'échelle de l'entreprise. Le data vault comprend trois types d'entités :{...}

data warehouse

Qu'est-ce qu'un data warehouse ? Un data warehouse est un système de gestion des données qui conserve les données actuelles et historiques de multiples sources sous une forme orientée entreprise pour faciliter la création d'insights et de rappor{...}

Data warehouse unifié

Qu'est-ce qu'un data warehouse unifié ? Une base de données unifiée, ou data warehouse d'entreprise, contient toutes les informations commerciales d'une organisation et les met à la disposition de l'ensemble des équipes. La plupart des entrepris{...}

DataFrame Pandas

La data science est capable de transformer la façon dont votre entreprise fonctionne. Pour exploiter tout son potentiel, rien de plus simple que d’utiliser DataFrame Pandas. Pour ce faire, il vous faudra utiliser des structures de données appropriée{...}

DataFrames

Qu'est-ce qu'un DataFrame ? Un DataFrame est une structure qui organise les données en tables bidimensionnelles de lignes et de colonnes, comparables à une feuille de calcul. Les DataFrames font partie des structures de données les plus couramme{...}

Data mesh

Les données sont essentielles pour les entreprises : elles sont la matière première de l'innovation et du progrès. En raison de leur rôle croissant dans les activités et dans la prise de décision, elles sont à l'origine de défis majeurs pour les{...}

Deep Learning

Qu'est-ce que le deep learning ? Le deep learning est un domaine du machine learning qui consiste à appliquer à de grandes quantités de données des algorithmes inspirés de la structure et du fonctionnement du cerveau humain. Pour cette raison, l{...}

Dense Tensor

Les dense tensors stockent des valeurs dans des blocs de mémoire séquentiels et contigus où toutes les valeurs sont représentées. Les tensors, ou tableaux multidimensionnels, sont employés dans un large éventail d'applications d'analyse de données mu{...}

Données alternatives

Que sont les données alternatives ? Les données alternatives sont des informations collectées auprès de sources alternatives que les autres acteurs n'exploitent pas – autrement dit, des sources de données non traditionnelles. L'analyse des donné{...}

Détection d'anomalies

La détection d'anomalies est une technique consistant à identifier les événements ou les observations rares qui peuvent justifier des soupçons en raison de leur différence statistique par rapport aux autres. Ces comportements « anormaux » s{...}

Efficacité globale de l'équipement

Qu'est-ce que l'efficacité globale de l'équipement ? L'efficacité globale de l'équipement (OEE, pour Overall Equipment Effectiveness) est un indicateur de l'utilisation d'une installation de fabrication (locaux, temps et matériel) par rapport à {...}

engineering des fonctionnalités

Ingénierie de fonctionnalité pour le machine learning L'ingénierie de fonctionnalité, également appelée prétraitement des données, consiste à convertir les données brutes en fonctionnalités utilisables pour développer des modèles de machine learning.{...}

Extraire, transformer, charger (ETL)

Qu'est-ce que l'ETL ? La quantité de données, de sources et de types ne cesse d'augmenter, tout comme l'importance d'exploiter ces données dans le cadre d'initiatives d'analytique, de data science et de machine learning pour en tirer des insight{...}

Finances personnalisées

Qu'est-ce que la finance personnalisée ? Les produits et services financiers se normalisent de plus en plus. Les clients, encouragés par les pratiques du secteur des médias et de la vente au détail, attendent une expérience toujours plus personn{...}

Flux de données

Qu'est-ce qu'un flux de données ? Le flux de données décrit la circulation des données d'un processus ou d'un composant à l'autre dans l'architecture d'un système. Il représente la façon dont les données sont acquises, traitées, stockées et livr{...}

Fonction date dans Hive

Qu'est-ce qu'une fonction de données dans Hive ? Hive propose de nombreuses fonctions intégrées qui facilitent le traitement et l'interrogation des données. Elles permettent notamment de manipuler des chaînes et des données, de convertir des typ{...}

Framework IA unifié

L'intelligence artificielle unifiée, ou IAU, a été annoncée par Facebook à l'occasion de F8 cette année. Ce concept réunit deux frameworks de deep learning créés et externalisés par Facebook : d'un côté PyTorch, centré sur la recherche et reposa{...}

gestion de données

Qu'est-ce que la gestion des données ? Commençons par définir ce qu'est la gestion des données. La gestion des données consiste à organiser, traiter, stocker, sécuriser et analyser les données d'une organisation tout au long de leur cycle de vie{...}

Gestion de la chaîne d'approvisionnement

Qu'est-ce que la gestion de la chaîne d'approvisionnement ? La gestion de la chaîne d'approvisionnement (supply chain) consiste à planifier, mettre en œuvre et contrôler les opérations de la chaîne d'approvisionnement, dans le but de produire et{...}

Gouvernance des données

Qu'est-ce que la gouvernance des données ? La gouvernance des données est une pratique de supervision qui vise à garantir la valeur des données et leur capacité à soutenir la stratégie de l'entreprise. La gouvernance des données n'est pas simple{...}

Grands modèles de langage (LLM)

Que sont les grands modèles de langage (LLM) ? Les grands modèles de langage (LLM) représentent une nouvelle classe de modèles de traitement du langage naturel (NLP). Leurs performances et leurs capacités surpassent considérablement celles de le{...}

Génomique

La génomique est un domaine de la génétique qui s'intéresse au séquençage et à l'analyse du génome d'un organisme. Sa mission principale est d'établir la séquence complète d'une chaîne d'ADN ou la composition des atomes qui composent l'ADN, ainsi que{...}

Génération augmentée de récupération

RésuméApprenez comment la génération augmentée par récupération (RAG) fonctionne en combinant de grands modèles linguistiques (LLMs) avec des données externes en temps réel pour des sorties plus précises et pertinentes.Voyez comment RAG résout des pr{...}

IA générative

L'IA générative change la façon dont les humains créent, travaillent et communiquent. Databricks explique comment fonctionne l'IA générative et où elle se dirige ensuite. {...}

Informatique serverless

L'informatique serverless représente la dernière évolution de l'infrastructure de calcul. Autrefois, les organisations avaient besoin de serveurs physiques pour exécuter des applications web. Ensuite, l'essor du cloud leur a permis de créer des serve{...}

Ingestion des données

L'ingestion de données est la première étape du cycle de vie du data engineering. Elle consiste à collecter les données provenant de sources diverses – bases de données, applications SaaS, sources de fichiers, API, appareils IoT, etc. – et à les stoc{...}

Ingénierie de prompt

L'ingénierie de prompt est un domaine émergent à l'avant-garde du développement de l'intelligence artificielle (IA). Cette discipline s'intéresse à un processus crucial : l'élaboration d'entrées efficaces pour les modèles d'IA générati{...}

Introduction au streaming de données

Au cours des dernières années, le besoin de données en temps réel a considérablement augmenté. Les organisations développent de plus en plus d'applications et de plateformes qui s'appuient sur des flux de données pour produire des analyses en temps r{...}

Introduction aux plateformes de business intelligence

Une plateforme de business intelligence (BI) est une solution technologique complète qui aide les organisations à collecter, comprendre et visualiser leurs données pour prendre des décisions commerciales éclairées. Véritables colonnes vertébrales tec{...}

Jeu de données

Qu'est-ce qu'un dataset ? Un dataset est une collection structurée de données, organisées et stockées à des fins d'analyse ou de traitement. Les données d'un dataset ont généralement des points communs et proviennent d'une même source, ou sont d{...}

Jumeau numérique

Qu'est-ce qu'un jumeau numérique ? Selon la définition classique, un jumeau numérique est « un modèle virtuel conçu pour être le reflet exact d'un objet physique. » – IBM[KVK4] Dans le cas d'un processus de fabrication discret ou conti{...}

Lakehouse for Retail

Qu'est-ce que Lakehouse for Retail ? Lakehouse for Retail est le premier lakehouse Databricks spécialement pensé pour un secteur d'activité. Il aide les détaillants à prendre rapidement en main les accélérateurs de solutions, les capacités de pa{...}

Le temps réel pour la vente au détail

À quoi servent les données en temps réel pour la vente au détail ? La vente au détail en temps réel s'appuie sur un accès en temps réel aux données. En abandonnant l'approche batch de l'accès, de l'analyse et du calcul, les données deviennent co{...}

Les modèles de machine learning

Qu’est-ce qu’un modèle de machine learning ? Un modèle de machine learning est un programme capable de trouver des modèles ou de prendre des décisions à partir d’un tout nouveau dataset. Par exemple, dans le traitement du langage naturel, les mo{...}

LLMOps

Qu’est-ce qu’un LLMOps ? Un LLMOps (Large Language Model Ops) est un ensemble de pratiques, de techniques et d’outils utilisés pour la gestion opérationnelle des grands modèles de langage (LLM, Large Language Model) dans des environnements de pr{...}

Machine Learning Library (MLlib)

La bibliothèque Machine Learning Library (MLlib) d’Apache Spark est conçue pour être simple, évolutive et facile à intégrer à d’autres outils. Grâce à l’évolutivité, à la compatibilité avec plusieurs langages et à la rapidité de Spark, les data scien{...}

Maintenance prédictive

Qu'est-ce que la maintenance prédictive ? Pour résumer, la maintenance prédictive consiste à déterminer à quel moment un équipement doit être entretenu et quelles activités de maintenance doivent être réalisées précisément. Elle tient compte de {...}

MapReduce

Qu’est-ce que MapReduce ? MapReduce est un framework d'exécution distribué en Java au sein de l'écosystème Apache Hadoop. Il élimine la complexité de la programmation distribuée en exposant deux étapes de traitement implémentées par les développ{...}

Migration des données

Les entreprises comptent plus que jamais sur les données. Pour que les vôtres restent utiles, il vous faut la meilleure plateforme de données possible, ce qui peut nécessiter une migration. Vous avez des questions sur la migration des données et vous{...}

MLOps

Que sont les MLOps ? MLOps signifie Machine Learning Operations, ou opérations de machine learning. Fonction fondamentale de l'ingénierie du machine learning, les MLOps ont pour mission de normaliser le processus de mise en production des modèle{...}

Modèle de gestion des risques

Un modèle de gestion des risques désigne la supervision des risques liés aux conséquences négatives éventuelles des décisions basées sur des modèles incorrects ou mal utilisés. Le but d’un modèle de gestion des risques est d’employer des techniques e{...}

Modèle Keras

Qu’est-ce qu’un modèle Keras ? Keras est une bibliothèque de haut niveau pour le deep learning, basée sur Theano et TensorFlow. Écrite en Python, elle offre une solution facile et pratique pour créer une gamme de modèles de deep learning. K{...}

Notebook Jupyter

Qu'est-ce qu'un notebook Jupyter ? Un notebook Jupyter est une application Web open source qui permet aux data scientists de créer et de partager des documents comprenant du code en direct, des équations et d'autres ressources multimédias. Quels{...}

Open Banking

Qu'est-ce que l'open banking ? L'open banking est un moyen sécurisé de fournir un accès aux données financières des consommateurs, à la stricte condition qu'ils aient donné leur consentement.² Sous l'impulsion de dynamiques réglementaires, techn{...}

Orchestration

Qu’est-ce que l’orchestration ? L’orchestration est la coordination et la gestion de plusieurs systèmes informatiques, applications et/ou services, qui enchaînent des tâches multiples afin d’exécuter des workflows ou des processus plus larges. C{...}

Parquet

Parquet, qu'est-ce que c'est ? Apache Parquet est un format de fichier de données open source en colonnes, conçu pour stocker et récupérer des données avec une grande efficacité. Il fournit d'excellents schémas de compression et d'encodage des d{...}

Partage de données

Qu’est-ce que le partage de données ? Le partage de données permet de mettre les mêmes données à la disposition d’un ou de plusieurs consommateurs. Toujours plus nombreuses, les données sont aujourd'hui un asset stratégique pour toute entreprise{...}

Pipelines

Qu'est-ce qu'un pipeline de données ? Un pipeline de données encadre la façon dont les données circulent d'un système à l'autre. Il englobe une série d'étapes qui sont réalisées dans un ordre spécifique, car le résultat de chaque étape informe l{...}

Pipelines de ML

En règle générale, l’exécution d’algorithmes de machine learning implique une séquence de tâches comprenant le prétraitement, l’extraction de fonctionnalités, l’ajustement du modèle et les étapes de validation. Par exemple, la classification de docum{...}

Plateforme d’analyse de données

Qu’est-ce qu’une plateforme d’analyse de données ? Une plateforme d’analyse de données est un écosystème de services et de technologies permettant d’effectuer des analyses sur des données volumineuses, complexes et dynamiques. Elle permet de ré{...}

Présentation des outils de business intelligence

Les outils de business intelligence (BI) représentent une catégorie essentielle d'applications logicielles. Ils sont pour collecter, traiter, analyser et présenter les données commerciales sous une forme utile et pertinente. Au cœur de ces outils se {...}

Prévision de la demande

Qu'est-ce que la prévision de la demande ? La prévision de la demande consiste à établir une projection de la demande des clients (et donc des revenus futurs). Plus spécifiquement, elle projette l'assortiment de produits que les consommateurs vo{...}

PyCharm

PyCharm est un environnement de développement intégré (IDE) utilisé dans la programmation informatique et créé pour le langage de programmation Python. Par défaut, PyCharm crée un environnement virtuel Python quand il est utilisé sur Databricks. Cep{...}

pyspark

Qu'est-ce que PySpark ? Apache Spark est écrit dans le langage de programmation Scala. PySpark a été créé pour soutenir la collaboration d'Apache Spark et de Python : concrètement, c'est une API Python pour Spark. De plus, PySpark joue le r{...}

Qu'est-ce que l'intelligence des données ?

L'intelligence des données consiste à utiliser des systèmes d'intelligence artificielle (IA) pour apprendre et comprendre les données d'une organisation puis à raisonner à partir de ces données, ce qui permet de créer des applications d'IA personnali{...}

Qu’est-ce que Hadoop ?

Apache Hadoop est une plateforme logicielle open source conçue en Java. Elle gère le traitement et le stockage des données pour les applications Big Data. Elle fonctionne en répartissant les jobs d’analytique et de Big Data Hadoop sur les nœuds d’un {...}

Resilient Distributed Dataset (RDD)

Le RDD était à l'origine la principale API côté utilisateur dans Spark.Fondamentalement, un RDD est une collection distribuée immuables d'éléments de données, répartis sur les nœuds de votre cluster, et que vous pouvez exploiter en parallèle à l'aid{...}

Runtime Databricks

Databricks Runtime est un ensemble d’artefacts logiciels qui s’exécutent sur les clusters de machines gérés par Databricks. Il inclut Spark et il est aussi doté d’un certain nombre de composants et de mises à jour qui améliorent considérablement la {...}

Réglage fin

Tout comprendre à l'affinement de modèles Pour entraîner les modèles d'intelligence artificielle (IA) et de machine learning (ML) dans un but spécifique, les scientifiques des données et les ingénieurs ont établi qu'il était plus facile et moins coût{...}

Réseau de neurones

Qu’est-ce qu’un réseau de neurones ? Un réseau de neurones est un modèle informatique qui ressemble à la structure en réseau des neurones du cerveau. Il est composé d’éléments de traitement interconnectés, appelés neurones, qui travaillent en sy{...}

Réseau de neurones artificiels

Qu'est-ce qu'un réseau de neurones artificiels ? Un réseau de neurones artificiels (ANN) est un système informatique dont le fonctionnement est calqué sur celui des neurones dans un cerveau humain. Comment fonctionne un réseau de neurones artifi{...}

Réseau de neurones bayésien

Que sont les réseaux de neurones bayésiens ? Les réseaux de neurones bayésiens (BNN) sont des réseaux standards étendus auxquels s'ajoute une inférence ultérieure visant à contrôler le surajustement. D'un point de vue plus large, l'approche bayé{...}

Schéma en flocon de neige

Qu’est-ce qu’un schéma Snowflake ? Un schéma en flocon de neige est un modèle de données multidimensionnel qui est une extension d’un schéma en étoile. Dans ce type de schéma, les tables de dimension sont décomposées en sous-dimensions. Le{...}

Schéma en étoile

Qu'est-ce qu'un schéma en étoile ? Un schéma en étoile est un modèle de données multidimensionnel qui permet d'organiser une base de données afin de faciliter sa compréhension et son analyse. Les data warehouses, les bases de données, les data m{...}

Spark API

Si vous travaillez avec Spark, vous croiserez certainement trois API : DataFrames, Datasets et RDD. Que sont les Resilient Distributed Datasets ? Les RDD, ou Resilient Distributed Datasets (datasets distribués résilients), sont des collecti{...}

Spark Elasticsearch

Qu'est-ce que Spark Elasticsearch ? Spark Elasticsearch est une base de données distribuée NoSQL qui stocke, extrait et gère des données orientées document et semi-structurées. Ce moteur de recherche RESTful open source repose sur Apache Lucene.{...}

Spark hébergé

Qu'est-ce que Spark hébergé ? Développé en 2009 à l'Université de Californie à Berkeley, Apache Spark est un système de calcul en cluster rapide et généraliste. Il est conçu pour le big data et axé sur la vitesse, la simplicité d'utilisation et {...}

Spark managé

Qu'est-ce que Spark managé ? Un service Spark managé vous permet de profiter d'outils de données open source pour le traitement batch, l'exécution de requêtes, le streaming et le machine learning. En utilisant ce type d'automatisation, vous pouv{...}

Spark SQL

De nombreux data scientists, des analystes – et plus généralement beaucoup d'utilisateurs de business intelligence – s'appuient sur les requêtes SQL pour explorer des données. Spark SQL est un module Spark conçu pour le traitement de données structur{...}

Spark Streaming

Apache Spark Streaming est la génération précédente du moteur de streaming d’Apache Spark. Spark Streaming ne bénéficie plus de mises à jour. Il s’agit d’un projet obsolète. Il existe un moteur de streaming plus récent et plus facile à utiliser dans {...}

Spark Tuning

Qu'est-ce que l'ajustement des performances Spark ? L'ajustement des performances Spark consiste à modifier les paramètres de mémoire, de cœurs et d'instances utilisés par le système. Ce processus permet à Spark d'offrir des performances irrépro{...}

Sparklyr

Qu'est-ce que Sparklyr ? Sparklyr est un paquet open source qui fournit une interface entre R et Apache Spark. Vous pouvez désormais exploiter les capacités de Spark dans un environnement R moderne, car Spark peut interagir avec les données{...}

sparkr

SparkR est un outil qui permet d'exécuter R sur Spark. Il se conforme aux mêmes principes que toutes les autres liaisons de langage de Spark. Pour utiliser SparkR, il suffit de l'importer dans votre environnement et d'exécuter votre code. Il ressembl{...}

streaming structuré

Le streaming structuré est une API de haut niveau pour le traitement des flux qui a été mise en production dans Spark 2.2. Le streaming structuré vous permet d’utiliser les API structurées de Spark pour exécuter des opérations en mode streaming,{...}

Système de fichiers distribué Hadoop (HDFS)

HDFS Le système de fichiers distribué Hadoop (HDFS) est le principal système de stockage utilisé par les applications Hadoop. Ce framework open source a l'avantage de transférer rapidement les données d'un nœud à l'autre. Il est couramment employé pa{...}

Systèmes d'IA composés

Que sont les systèmes d'IA composés ? Selon la définition du blog Berkeley AI Research (BAIR), les systèmes d'IA composés sont conçus pour accomplir des tâches d'IA en combinant plusieurs composants en interaction. Ces composants peuvent être de{...}

Sécurité des données

Dans le monde intensément connecté qui est le nôtre, les menaces de cybersécurité et les risques internes sont source d'inquiétude permanente. Les organisations doivent avoir de la visibilité sur les données qu'elles détiennent, les mettre à l'abri d{...}

Séquençage ADN

Qu'est-ce que le séquençage ADN ? Le séquençage ADN est le processus qui permet de déterminer la séquence exacte des nucléotides d'ADN (acide désoxyribonucléique). L'objectif du séquençage est d'établir l'ordre dans lequel quatre blocs chi{...}

Tenseur sparse

Python fournit une bibliothèque intégrée, numpy, qui permet de manipuler des tableaux multidimensionnels. Cette bibliothèque doit impérativement être organisée et utilisée pour développer la bibliothèque pytensor. Sptensor est une classe qui représen{...}

TensorFlow

En novembre 2015, Google a publié son cadre open source de machine learning, baptisé TensorFlow. Il prend en charge le deep learning, les réseaux de neurones et les calculs numériques généraux sur des CPU, des GPU et des clusters de GPU. L'un des av{...}

Tout comprendre aux modèles d'IA

Qu'est-ce qu'un modèle d'IA ? Les modèles d'IA sont des programmes informatiques qui utilisent des données pour reconnaître des motifs, faire des prédictions et prendre des décisions. Les modèles d'IA utilisent des algorithmes, qui sont des succ{...}

Traitement des événements complexes

Qu'est-ce que le traitement des événements complexes (CEP) ? Le traitement des événements complexes, également appelé traitement des événements, de flux ou de flux d'événements, consiste à utiliser la technologie pour interroger des données avan{...}

Transactions ACID

Qu'est-ce qu'une transaction ? Dans le contexte des bases de données et des systèmes de stockage, une transaction est une opération traitée comme une seule unité de travail, qui aboutit entièrement ou pas du tout, et laisse le système de stockag{...}

Transformation des données

Qu'est-ce que la transformation des données ? La transformation des données consiste à prendre les données brutes qui ont été extraites des sources et à les transformer en datasets exploitables. Les pipelines de données regroupent souvent plusie{...}

Tungsten

Qu’est-ce que le projet Tungsten ? Tungsten est le nom de code d’un projet global visant à modifier le moteur d’exécution d’Apache Spark. Il a pour but d'améliorer considérablement l’efficacité de sa mémoire et de son unité centrale pour les app{...}

Unified Data Analytics Platform

La plateforme Unified Data Analytics de Databricks aide les organisations à accélérer l’innovation en unifiant data science, ingénierie et activité commerciale. En choisissant Databricks comme plateforme Unified Data Analytics, vous pouvez rapid{...}

Vues matérialisées

Qu’est-ce qu’une vue matérialisée ? Une vue matérialisée est un objet de base de données qui stocke les résultats d’une requête (query) dans une table physique. Les vues matérialisées sont différentes des vues de base de données classiques qui s{...}

Écosystème Hadoop

Qu’est-ce que l’écosystème Hadoop ? L’écosystème Apache Hadoop désigne les différents composants de la bibliothèque logicielle Apache Hadoop ; il comprend des projets open source ainsi qu’une gamme complète d’outils complémentaires. Parmi l{...}