L’entrepôt ou le lac de données : vous avez déjà entendu ces métaphores juxtaposées, parfois employées de façon quasi interchangeable pour désigner deux modes de stockage et de traitement de données. Mais quelles différences fondatrices entre ces deux paradigmes quant aux utilisateurs, aux usages et types de données concernées ?

La structure vs. La liberté : deux paradigmes de stockage, deux avenirs possibles pour le traitement des données
Les data lakes sont utilisés pour le stockage rentable de grandes quantités de données provenant de nombreuses sources hétérogènes : IoT, flux de médias sociaux en temps réel, données utilisateur et transactions d’applications Web.

Data warehouse Data lake
Type de données Données historiques qui ont été structurées pour s’adapter à un schéma de base de données relationnelle Données non structurées et structurées provenant de diverses sources de données d’entreprise
Utilisateurs Consultants Data scientists et ingénieurs
Utilisation Requêtes généralement en lecture seule pour agréger et résumer les données Stockage des données et des analyses de données volumineuses, pour le deep learning et l’analyse en temps réel
Taille Stocke uniquement les données pertinentes pour l’analyse Stocke toutes les données qui peuvent être utilisées – peuvent prendre des pétaoctets !
Accessibilité Accès moins aisé du fait de la rigidité de la solution Accès facile et souple avec possibilité d’effectuer des mises à jour rapides

Les réponses aux questions d’hier vs. Les questions ouvertes sur les modèles de demain
Les données structurées de la data warehouse sont plus faciles à analyser car elles sont plus propres et disposent d’un schéma uniforme à partir duquel effectuer des requêtes.

En revanche, la structure se gagne au prix de la liberté et de l’évolutivité.

Les datalakes absorbent des données de n’importe quelle structure, sans que celles-ci n’aient besoin de s’adapter à un schéma spécifique et pré-défini, ce qui est le plus adapté pour le machine learning et deep learning.

Les data warehouses sont très efficaces pour analyser les données historiques pour des décisions de données spécifiques, mais ne sont pas recommandées pour qui souhaite innover en profondeur en parsant les données avec des modèles novateurs.

Opter pour un modèle « future-proof » ?
Si vous souhaitez obtenir des réponses rapides à des questions relativement classiques sans faire appel à l’analyse en temps réel, la data warehouse vous donnera la solution la plus facile à implémenter.

Si vous souhaitez faire un investissement d’avenir dans un mode de stockage souple et évolutif qui saura s’adapter aux mutations rapides du machine learning pour découvrir des modes d’exploration et d’analyse de données inédits, le data lake est l’option pour vous.

fr_FRFrench