Revenir au contenu principal

Comprendre la qualité des données

Plus que jamais, les organisations s'appuient sur des datasets variés et complexes pour éclairer leur prise de décision. Il est essentiel que ces données soient fiables, précises et pertinentes pour étayer des décisions stratégiques efficaces. Cet enjeu devient même crucial avec l'adoption des capacités d'IA dans tous les secteurs. L'IA et l'analytique doivent utiliser des données nettoyées et de grande qualité pour produire des prédictions et des décisions précises.

Sans des données fiables, impossible de faire confiance aux algorithmes d'IA, et les implications peuvent se propager à toute votre organisation. Les problèmes de qualité des données (les données incomplètes ou manquantes, par exemple) peuvent amener à des conclusions inexactes aux lourdes conséquences financières. Selon Gartner, les organisations perdent en moyenne près de 13 millions de dollars par an à cause de la mauvaise qualité des données.

Il faut également veiller à l'intégrité des données, ce qui signifie veiller à ce qu'elles soient précises, complètes et cohérentes à tout moment de leur cycle de vie. L'intégrité est également un processus continu qui garantit que les nouvelles données ne compromettent pas la qualité globale d'un dataset, et protège les données actuelles contre la perte ou la corruption.

Poursuivez votre exploration

Le Grand livre de l’IA générative

Bonnes pratiques de développement pour des applications d'IA de qualité production/

Lire la suite

Databricks Delta Live Tables : guide de prise en main

Développez des pipelines de données évolutifs, fiables et conformes aux normes de qualité de l'architecture lakehouse avec Delta Live Tables.

Démarrer

Série Delta Lake

Apprenez à assurer la qualité, la fiabilité, la sécurité et la performance de votre data lake.

Obtenez la série complète

Les avantages de la qualité des données

Maintenir la qualité des données est indispensable à plusieurs titres : 

Efficacité opérationnelle : des données de haute qualité permettent de réduire le temps et les ressources consacrés à la correction des erreurs, à la résolution des divergences et à l'identification des redondances. Elles font aussi baisser les coûts en donnant aux équipes la possibilité de se consacrer à des tâches stratégiques plutôt qu'à la résolution des problèmes de données. 

Prise de décision éclairée : des données de qualité donnent aux acteurs clés l'assurance d'adosser leurs décisions sont basées sur des informations exactes. Des données précises, complètes et opportunes sont également impératives pour garantir la pertinence des résultats de l'analytique et l'IA.

Gouvernance des données : pour être efficace, la gouvernance des données doit pouvoir compter sur leur qualité. On obtiendra ainsi une gestion cohérente des datasets, en conformité avec les exigences réglementaires.

Les critères essentiels de la qualité des données

La qualité des données peut être décomposée en six aspects clés : 

  1. Cohérence : les données doivent rester cohérentes dans l'ensemble des bases de données et des datasets. Autrement dit, elles doivent rester immuables d'un domaine à l'autre, d'une transaction à l'autre, et dans le temps. Au fil de l'élargissement des datasets, il est essentiel d'entretenir les données pour éliminer les doublons et les conflits. 
  2. Exactitude : les données doivent refléter la réalité qu'elles sont censées représenter. Qu'elles décrivent une mesure physique ou une source de référence, des données de qualité doivent être exemptes d'erreurs et représenter fidèlement la source. 
  3. Validité : les données doivent également être conformes aux formats, aux normes et aux règles qui ont été établis. Cela implique généralement qu'elles correspondent à une certaine plage ou un certain schéma, et s'accompagnent des métadonnées pertinentes. 
  4. Exhaustivité : la qualité d'un dataset dépend directement de son exhaustivité. L'absence ou l'indisponibilité de certains points de données peut compromettre la qualité globale des données et produire des informations insuffisantes ou incomplètes.  
  5. Ponctualité : les données doivent être à jour et immédiatement disponibles en cas de besoin. Tout retard ou décalage dans la communication des données peut produire des inexactitudes. Les systèmes doivent capturer les nouvelles informations, les traiter et les stocker avec précision pour qu'elles puissent être mobilisées ultérieurement.  
  6. Unicité : lorsque les données sont agrégées à partir de différentes sources, les processus de qualité des données doivent anticiper les duplications et les redondances. Les datasets qui incluent des doublons peuvent produire des insights trompeurs susceptibles d'affecter les stratégies. 

Soulignons que les données qui arrivent dans une plateforme d'analytique ne répondent pas toutes à ces exigences. Il faut nettoyer et transformer les données pour atteindre le niveau de qualité souhaité. 
 
On peut également utiliser le cadre des « Sept C de la qualité des données », qui détaille comment préparer les données en vue de leur partage, de leur traitement et de leur utilisation. 

  • Collecte : la première étape est la collecte de données. Elle désigne le processus de capture, de mise en forme et de stockage des données dans un référentiel approprié.  
  • Caractérisation : une fois les données collectées, la deuxième étape consiste à définir des métadonnées supplémentaires : moment de la création des données, méthode de collecte, emplacement ou paramètres spécifiques du capteur, etc. 
  • Nettoyage (« cleaning ») : il faut ensuite nettoyer les données en éliminant les problèmes et les traces de corruption. On utilise couramment l'ETL (extraction, transformation, chargement), mais d'autres processus peuvent être utilisés pour résoudre des problèmes supplémentaires, et notamment éliminer les doublons, les fautes de frappe ou les données inutiles. 
  • Contextualisation : toutes les données ne sont pas utiles à votre entreprise ou votre projet. La contextualisation des données détermine quelles métadonnées supplémentaires peuvent être nécessaires. 
  • Catégorisation : cette étape identifie plus précisément les aspects clés des datasets et les extrait en fonction du domaine. 
  • Corrélation : cette étape relie des données et des concepts dispersés dans différents dépôts de données. Par exemple, deux datasets peuvent faire référence à un même point de données, comme le numéro de téléphone d'un client. Celui-ci sera alors classé sous deux types différents selon la base de données qui l'héberge. La corrélation aide à résoudre ces conflits en connectant les points de données identiques. 
  • Catalogage : la dernière étape fait en sorte que les données et les métadonnées soient stockées, préservées et accessibles en toute sécurité via les plateformes de recherche et d'analyse.

Évaluer la qualité des données

La qualité des données doit être mesurée à l'aide d'un cadre de normes et de dimensions établies. En voici quatre : 

  • Cadre d'évaluation de la qualité des données (DQAF) 
  • Gestion totale de la qualité des données (TDQM) 
  • Fiche d'évaluation de la qualité des données (DQS) 
  • Temps d'arrêt des données 

Ces normes identifient les lacunes dans les données et orientent l'amélioration continue. Ces cadres s'intéressent à plusieurs indicateurs courants : 

  • Taux d'erreur : fréquence des erreurs détectées dans les données 
  • Taux d'exhaustivité : pourcentage de données qui sont complètes et disponibles 
  • Taux de cohérence : degré de cohérence des données sur différents datasets 
  • Taux d'actualité : décrit dans quelle mesure les données sont à jour

Amélioration de la qualité des données

Avec des datasets toujours plus volumineux et des problèmes complexes à résoudre, améliorer la qualité des données peut être un véritable défi. La surveillance de la qualité des données doit se faire tout au long du cycle de vie des données. À long terme, c'est comme cela qu'on obtiendra des analyses plus précises, des décisions plus intelligentes et une augmentation des revenus. 

  • Qualité des données pendant l'ETL : le processus de nettoyage des datasets peut introduire un certain nombre d'erreurs. Il faut donc vérifier la qualité des données tout au long du processus d'ingestion, de transformation et d'orchestration pour assurer leur précision et leur conformité en continu. Certes, les outils de nettoyage des données peuvent automatiser le processus de correction ou de suppression des données inexactes ou incomplètes, mais aucune automatisation n'est parfaite. On procédera à des tests continus tout au long du processus pour préserver l'exactitude et la qualité globales du dataset.
  • Qualité des données et gouvernance : les données doivent être protégées par une bonne gouvernance. Déterminez la norme organisationnelle de qualité des données et identifiez les principaux acteurs responsables des différentes parties du processus. Il est également important de développer une culture de la qualité des données pour que chacun comprenne son rôle dans le maintien de l'intégrité des données. 
  • Tests de qualité des données : les tests de qualité des données tentent d'anticiper des problèmes spécifiques et connus dans un dataset. De leur côté, les outils de profilage analysent les données pour détecter les problèmes de qualité et apporter des informations sur les motifs remarquables, les valeurs aberrantes et les anomalies. Ces tests doivent être réalisés avant tout déploiement réel pour garantir l'exactitude de vos résultats.

Défis émergents en matière de qualité des données

Dans un environnement commercial hautement concurrentiel, les organisations doivent exploiter leurs données pour rester dans la course. Les initiatives d'IA et de machine learning revêtent une importance stratégique dans les entreprises qui cherchent à obtenir des insights pour orienter l'innovation. Parallèlement à cela, l'adoption des plateformes cloud et l'avènement de l'Internet des objets (IoT) ont conduit à une multiplication exponentielle des données.  

Il est plus impératif que jamais d'adopter des pratiques robustes pour garantir la qualité des données, mais les organisations sont confrontées à des défis majeurs concernant le maintien de la qualité des données : 

  • Données incomplètes ou inexactes : les données agrégées depuis plusieurs sources ont souvent des défauts – attributs manquants, erreurs, doublons, etc. Elles peuvent produire des informations trompeuses qui vont fausser la prise de décision 
  • Manque de gouvernance des données : sans de bonnes pratiques de gestion des données, le manque de clarté dans la répartition des rôles et des responsabilités peut nuire à la qualité des données 
  • Volume et vélocité des données : la croissance constante du volume de données crée des difficultés en matière de traitement et de reporting en temps réel, ce qui peut retarder la génération d'insights 
  • Complexité des sources de données : les systèmes collectent de plus en plus de données non structurées (photos, vidéos, etc.), potentiellement problématiques pour les processus de qualité des données, aussi perfectionnés soient-ils 
  • Pratiques de surveillance : les organisations dépourvues de pratiques rigoureuses de surveillance des données peuvent subir des problèmes de qualité.

À l'heure où les organisations misent sur une approche data-driven axée sur l'IA et l'analytique, il devient crucial de centraliser et rationaliser les pratiques de qualité des données. Quand la qualité des données est élevée, les organisations ont toutes les cartes en main pour prendre des décisions efficaces, minimiser les erreurs et faire face à la concurrence dans un environnement technologique sophistiqué.

    Retour au glossaire