Revenir au contenu principal

Schéma en étoile

Essayer Gratuitement Databricks

Qu'est-ce qu'un schéma en étoile ?

Un schéma en étoile est un modèle de données multidimensionnel qui permet d'organiser une base de données afin de faciliter sa compréhension et son analyse. Les data warehouses, les bases de données, les data marts et d'autres outils peuvent bénéficier des schémas en étoile. Par leur conception, les schémas en étoile sont optimisés pour interroger de grands ensembles de données.

Introduits par Ralph Kimball dans les années 1990, ils sont particulièrement efficaces pour stocker et mettre à jour des données, tout en conservant un historique fiable. Ils réduisent en effet la duplication de définitions métier répétitives et accélèrent l'agrégation et le filtrage des données dans le data warehouse.

 

Exemple de schéma en étoile : diagramme de relations d'une entreprise montrant une table de faits connectée à des tables multidimensionnelles.

Tables de faits et tables de dimension

Le schéma en étoile est utilisé pour dénormaliser des données métier en dimensions (comme le temps et le produit) et en faits (comme des transactions de montants et de quantités).

Un schéma en étoile comprend en son centre une table de faits, qui contient des « faits » métier (comme des montants ou des quantités de transactions). La table de faits est reliée à plusieurs autres tables qui contiennent des dimensions telles que le temps ou le produit. Grâce aux schémas en étoile, les utilisateurs peuvent librement classer et décomposer les données, généralement en joignant au moins deux tables de faits ou de dimension.

Données dénormalisées

Les schémas en étoile dénormalisent les données, ce qui consiste à ajouter des colonnes redondantes à des tables de dimension pour simplifier et accélérer l'interrogation et l'exploitation des données. Cette démarche consiste à tolérer une certaine redondance (duplication des données) dans le modèle de données. L'objectif est d'accélérer les requêtes en évitant des opérations de jointure coûteuses sur le plan du calcul.

Dans ce modèle, la table de faits est normalisée mais les tables de dimension ne le sont pas. Autrement dit, les données de la table de faits ne se trouvent que dans cette table, tandis que les tables de dimension peuvent contenir des données redondantes.

Avantages des schémas en étoile

  • Les modèles basés sur les faits et les dimensions comme les schémas en étoile sont simples à comprendre et à implémenter. Les utilisateurs trouvent très facilement les données dont ils ont besoin. Ces modèles peuvent être appliqués aux data marts et à d'autres ressources de données.
  • Ils sont excellents pour les requêtes simples : contrairement aux modèles normalisés comme les schémas en flocon de neige, ils ne nécessitent pas un grand nombre de jointures pour accéder aux données.
  • Ils s'adaptent bien aux modèles OLAP.
  • Ils offrent de meilleures performances de recherche que les données normalisées parce qu'ils évitent les jointures, toujours coûteuses sur le plan du calcul.

Quelle est la différence entre un schéma en étoile et la 3NF (troisième forme normale) ?

3NF, ou troisième forme normale, est une méthode visant à réduire la redondance des données par la normalisation. C'est une norme courante pour les bases de données considérées comme entièrement normalisées. Elle contient généralement plus de tables qu'un schéma en étoiles, à cause du processus de normalisation. Il y a toutefois un inconvénient : les requêtes tendent à gagner en complexité en raison du nombre de jointures entre de grandes tables.

Ressources

    Retour au glossaire
    Glossary-Overview-Sidebar

    Découvrez ce qui motive le modèle Lakehouse.

    S'INSCRIRE MAINTENANT