Différence entre le lac de données et l'entrepôt de données

Les lacs de données et les entrepôts de données ne règlent pas les mêmes problèmes. Les lacs stockent les données brutes dans leur format natif à faible coût, tandis que les entrepôts de données traitent rapidement les données organisées. La manière de les utiliser ensemble ou séparément a une incidence sur les actions de votre équipe d'analyse et l'échelle des données modernes donne encore plus d'importance à ce choix. En 2024, 402,89 millions de téraoctets de données étaient créés, saisis, copiés ou consommés chaque jour, ce qui représente environ 147 zettaoctets par année.

Ci-dessous, nous comparerons les lacs de données et les entrepôts de données et nous expliquerons leurs différences en matière de schéma, de coût, de performance et de gouvernance, et la façon d'associer la bonne architecture à vos charges de travail.

Points clés

Les lacs de données utilisent le schéma à la lecture pour stocker des données brutes de manière flexible, alors que les entrepôts de données utilisent le schéma à l'écriture pour offrir des requêtes rapides et régulières pour la veille stratégique (BI) et les rapports.
De manière générale, les équipes de données bien rodées utilisent les deux systèmes dans une architecture stratifiée. Les données brutes arrivent dans le lac de données et les données organisées sont envoyées à l'entrepôt de données à des fins d'analyse.
L'approche héritée concernant les données de paiement, qui consiste à construire votre propre pipeline, a tendance à être fragile, car les changements au schéma d'API peuvent rompre les pipelines.

Qu'est-ce qu'un lac de données?

Un lac de données est un répertoire centralisé qui stocke les données dans leur format d'origine, à l'état brut. Cela comprend les données structurées (tableaux), les données semi-structurées, comme les journaux en JSON (JavaScript Object Notation), et les données non structurées (textes, images, vidéos).

L'idéal qui définit le lac de données est le schéma à la lecture. Les données arrivent telles qu'elles sont produites, et la structure est appliquée plus tard, au moment de la requête, lorsque l'utilisateur sait quelle question il cherche à résoudre. Cette flexibilité fait des lacs de données un outil bien adapté à l'intégration à grande échelle et à l'analyse exploratoire. Vous pouvez virtuellement tout stocker sans avoir à décider du modèle à l'avance.

Qu'est-ce qu'un entrepôt de données?

Un entrepôt de données est un système analytique structuré conçu pour permettre des requêtes rapides et uniformes.

Avant que les données arrivent dans un entrepôt, elles sont généralement nettoyées, transformées et modélisées selon des schémas bien définis, optimisés pour l'analyse. Cette approche est désignée par l'expression « schéma à l'écriture » (schema-on-write) : la structure et les définitions sont déterminées avant que les données soient sauvegardées. Le résultat est un environnement organisé où les analystes peuvent lancer des requêtes, construire des tableaux de bord et calculer des indicateurs de mesure sans se soucier des formats incohérents ou du manque de contexte.

Si le lac de données privilégie la flexibilité, l'entrepôt de données met l'accent sur la fiabilité et la performance analytique.

Quelles sont les principales différences entre un lac de données et un entrepôt de données ?

Les différences pratiques entre les lacs et les entrepôts vont bien au-delà de l'endroit où les données sont sauvegardées. La façon dont ils sont structurés, qui peut les utiliser et ce qu'il en coûte pour exécuter une requête constituent également des distinctions clés.

Structure

Les lacs de données stockent les données brutes et n'appliquent une structure que lorsque des requêtes sont exécutées. Cette flexibilité permet de multiples interprétations du même ensemble de données. Les entrepôts de données imposent une structure lorsque les données sont écrites, de sorte que quiconque exécute des requêtes sur les commandes voit le même schéma et les mêmes définitions.

Performances de requête

Les entrepôts sont conçus pour l'analyse interactive. Les requêtes sur de grandes tables dans des systèmes tels que Snowflake ou BigQuery peuvent renvoyer des résultats en quelques secondes. L'interrogation de fichiers bruts dans le stockage en lac peut être plus lente et plus coûteuse, à moins que vous n'ayez investi dans des optimisations telles que le stockage en colonnes, le partitionnement et le compactage.

Types de données

Les entrepôts excellent avec les données relationnelles structurées qui sont utilisées dans la création de rapports et les tableaux de bord. Les lacs de données sont plus souples : ils peuvent stocker des journaux bruts, des fichiers JSON imbriqués, des ensembles de données d'apprentissage automatique, des images et d'autres formats non relationnels.

Gouvernance et confiance

Les données d'entrepôt passent généralement par des pipelines de validation et de transformation, ce qui les rend adaptées à la création de rapports d'entreprise. Les données dans un lac sont souvent brutes et exploratoires, de sorte qu'un traitement supplémentaire est généralement requis avant de pouvoir prendre en charge des métriques de production.

Profil de coût

Les lacs de données sont beaucoup moins chers pour stocker de grands volumes de données brutes ou rarement consultées. Les entrepôts coûtent plus cher par téraoctet, mais offrent des performances de requête plus rapides et une meilleure prise en charge des charges de travail analytiques à forte simultanéité.

Comment les organizations utilisent-elles conjointement les lacs de données et les entrepôts de données ?

Les plateformes matures ont tendance à utiliser les deux systèmes, chacun gérant la partie du pipeline pour laquelle il est le mieux adapté. En règle générale, un lac de données sert de zone de réception pour les données brutes, tandis que l'entrepôt fournit des ensembles de données organisés et prêts pour l'analyse aux analystes et aux outils d'entreprise.

Un modèle courant est l'architecture en médaillon, qui comprend :

Bronze : Données brutes ingérées
Silver : Ensembles de données nettoyés et dédupliqués
Gold : Tables agrégées et prêtes pour l'entreprise, utilisées pour la création de rapports

Dans de nombreuses implémentations, les données bronze et silver se trouvent dans le stockage en lac, tandis que les ensembles de données gold sont servis à partir d'un entrepôt.

L'inconvénient de cette architecture en couches est sa complexité. Les données sont dupliquées sur plusieurs systèmes, les pipelines les déplacent et les transforment, et les équipes doivent gérer la gouvernance et les contrôles d'accès à plusieurs endroits. Les Organizations simplifient cela en expérimentant des architectures de type « lakehouse » reposant sur des technologies telles que Delta Lake, Apache Iceberg ou Hudi. Ces systèmes ajoutent des fonctionnalités traditionnellement associées aux entrepôts, telles que les transactions d'atomicité, de cohérence, d'isolation et de durabilité (ACID) et l'application de schémas, qui dirigent vers le stockage en lac.

Cela permet aux équipes d'utiliser une seule plateforme au lieu de deux. Son efficacité dépendra de la complexité de la requête et de la maturité de l'équipe qui l'exploite.

Comment faire un choix entre un lac de données et un entrepôt de données?

La réponse dépend de la personne qui utilise les données et de ce qu'elle souhaite en faire. Généralement, les entreprises comptent plusieurs équipes avec des exigences distinctes.

Voici les éléments à prendre en compte :

Les équipes de veille stratégique (BI) et de rapports

Si vos principaux consommateurs sont des analystes qui créent des tableaux de bord dans des outils comme Looker, Tableau ou Metabase, l'entrepôt de données constitue généralement la meilleure fondation. Ces outils dépendent de schémas constants, d'indicateurs de mesure fiables et de réponses rapides aux requêtes.

Les équipes de science des données et d'apprentissage automatique

Les modèles d'entraînement nécessitent souvent d'importants ensembles de données bruts, comme des flux d'événements, des textes, des journaux comportementaux ou d'autres formats complexes. Les lacs de données offrent la flexibilité nécessaire pour stocker et explorer ces données avant de les modeler sous forme de tableaux structurés.

Les équipes d'ingénierie qui intègrent des données à grande échelle

Lorsque les systèmes génèrent des milliards d'événements par jour, un lac représente souvent la première destination la plus pratique. Il s'agit d'une solution plus abordable qui gère bien l'évolution des schémas et qui n'oblige pas les systèmes en amont à se conformer à un modèle de données prédéfini.

Charges de travail mixtes

Les entreprises ont tendance à combiner les deux : un lac pour intégrer et stocker les données brutes, un entrepôt de données pour les ensembles de données organisés et une couche de transformation qui connecte les deux. Dans ce genre de configuration, la question consiste à savoir où chaque système se situe dans le pipeline de données global.

Où se situe le fournisseur de paiement dans l'architecture de votre lac ou de votre entrepôt de données?

L'approche héritée des données de paiement consiste à concevoir votre propre pipeline en utilisant une API (interface de programmation d'application) pour gérer la pagination et les limites de débit, à écrire les résultats dans l'espace de stockage et à préserver l'intégration pour une durée indéterminée.

Cela fonctionne, mais ce système est fragile. Les changements du schéma d'API peuvent briser les pipelines, les renflouements historiques de données exigent de la logique supplémentaire et les données de paiement comportent des renseignements financiers confidentiels. Par conséquent, en les acheminant par l'intermédiaire de tiers supplémentaires d'extraction, de transformation et de chargement (ETL), les entreprises s'exposent à des risques de sécurité qui déplaisent à de nombreuses équipes des finances et de conformité.

La solution Stripe Data Pipeline répond directement à ces défis. Ce connecteur natif, construit et entretenu par Stripe, est offert aux utilisateurs actuels de Stripe. Il fonctionne en synchronisant les données de Stripe (transactions, clients, abonnements, virements) de façon directe vers l'entrepôt de données ou la solution de stockage sur le nuage.

En comparaison avec les connecteurs tiers, l'approche native comprend quelques avantages :

L'intégralité des données : Stripe Data Pipeline comprend des données historiques de votre compte, des rapports financiers préconstruits et des ensembles de données organisés que les connecteurs tiers n'exposent souvent pas ou qui nécessitent une configuration sur mesure.
La fiabilité à grande échelle : En raison du fait que la solution est entretenue par Stripe, le pipeline effectue un suivi automatique des modifications aux API, gère l'évolution des schémas et prend en compte les cas limites dans le modèle de données de Stripe qui échappent parfois aux connecteurs externes.
La réduction de l'exposition en matière de sécurité : Les données des transactions financières circulent entre Stripe et votre point de stockage sans passer par l'infrastructure d'un intermédiaire de vente. Ce processus vient simplifier la sécurité de vos données.

Comment Stripe Data Pipeline peut vous aider

Stripe Data Pipeline vous permet d'effectuer les mêmes analyses dans votre entrepôt de données en combinant vos données Stripe et vos autres données de l'entreprise. Stripe Data Pipeline et Stripe Sigma sont toutes deux alimentées par les mêmes données Stripe sous-jacentes, mais Data Pipeline permet d'afficher facilement ces données en combinaison avec d'autres ensembles de données.

Stripe Data Pipeline peut vous aider de la façon suivante :

La synchronisation directe dans votre entrepôt de données
Les données sont acheminées vers Amazon Redshift, Snowflake ou Amazon S3 sans passer par un connecteur tiers, ce qui permet de tenir les renseignements financiers sensibles à l'écart de l'infrastructure d'autres fournisseurs.
L'instauration d'une source de données de référence
Centralisez vos données Stripe en un seul endroit pour accélérer votre clôture financière, déterminer vos modes de paiement les plus populaires, rehausser vos modèles d'IA, et plus encore.
La configuration sans codage
La connexion est configurée dans le Dashboard Stripe, sans codage requis. Configurez Stripe Data Pipeline en quelques minutes pour recevoir vos données et rapports Stripe automatiquement dans la destination de votre choix, et de façon continue.

Apprenez-en davantage sur l'aide que peut apporter Stripe Data Pipeline pour dévoiler vos données de l'entreprise.

Le contenu de cet article est fourni uniquement à des fins informatives et pédagogiques. Il ne saurait constituer un conseil juridique ou fiscal. Stripe ne garantit pas l'exactitude, l'exhaustivité, la pertinence, ni l'actualité des informations contenues dans cet article. Nous vous conseillons de consulter un avocat compétent ou un comptable agréé dans le ou les territoires concernés pour obtenir des conseils adaptés à votre situation particulière.

Paiements

Revenus

Gestion des fonds

Plateformes et places de marché