Un lac de données (data lake en anglais) est un grand espace de stockage qui réunit toutes vos données brutes au même endroit, dans leur format d'origine, sans les transformer à l'avance. Données de votre ERP, fichiers Excel, exports comptables, mails clients : tout y entre tel quel. On les met en forme plus tard, au moment où on en a besoin. Voici comment il fonctionne, et ce qu'il change pour une PME.
Lacs de données (data lake), c'est quoi ?
Un lac de données est un dépôt unique qui stocke vos données brutes dans leur format d'origine, sans les trier ni les nettoyer au moment où elles arrivent. Il accepte tout : des tableaux bien rangés comme des fichiers en vrac. La mise en forme se fait plus tard, selon la question que vous vous posez.
L'image du lac est juste. Tous vos ruisseaux de données (ERP, comptabilité, CRM, capteurs, fichiers) se déversent dans un même bassin. Rien n'est jeté, rien n'est figé.
C'est ce qui le distingue d'une simple base de données : on garde la donnée d'abord, on décide quoi en faire ensuite.
Comment ça marche, concrètement ?
Un data lake fonctionne en deux temps. D'abord il avale la donnée brute, sans la modifier. Ensuite, quand vous voulez l'analyser, c'est à ce moment-là qu'on lui donne une forme. Les spécialistes appellent ça le « schéma à la lecture » : la structure est appliquée au moment de lire, pas au moment de stocker.
Cette logique change tout par rapport aux outils classiques. Selon la documentation d'AWS, un data lake permet de « stocker la donnée d'abord et la traiter plus tard », là où un entrepôt exige de tout structurer avant de ranger.
En pratique, les données circulent en trois mouvements :
- L'ingestion : la donnée entre dans le lac telle quelle, depuis chaque source, structurée ou non.
- Le stockage : elle reste disponible dans son format brut, prête à être reprise.
- L'exploitation : on sélectionne, nettoie et met en forme la donnée utile au moment d'une analyse précise.
Le lac est donc un réservoir, pas un produit fini. Il faut ensuite construire la donnée propre par-dessus pour piloter.
Data lake ou entrepôt de données : quelle différence ?
Un data lake stocke des données brutes, dans tous les formats, et les met en forme au moment de l'analyse. Un entrepôt de données stocke des données déjà nettoyées et rangées selon un modèle défini à l'avance. Le lac est plus souple et accepte tout, l'entrepôt est plus carré et prêt à l'emploi.
La différence tient au moment où l'on range la donnée. L'entrepôt impose une structure avant de stocker (le « schéma à l'écriture »), il ne prend que des données déjà propres. Le lac accepte tout d'abord et structure ensuite.
Les deux ne s'opposent pas. Comme le rappelle l'article de référence sur les lacs de données, beaucoup d'entreprises gardent les deux : le lac pour tout conserver, l'entrepôt pour les analyses du quotidien. L'un alimente l'autre.
Pourquoi c'est important pour une PME ?
Parce qu'une PME laisse souvent dormir une partie de ses données, faute d'un endroit pour les réunir. Le data lake répond à ce problème : il rassemble tout, même ce qui ne sert pas encore, pour ne rien perdre et pouvoir l'exploiter le jour venu.
Le retard est réel. D'après le baromètre France Num 2025, 64 % des TPE et PME exploitent leurs données financières et seulement 53 % leurs données clients et ventes, avec un usage qui reste surtout descriptif (Blog du Modérateur, baromètre France Num 2025). Une large part de la donnée existe, mais reste sous-utilisée.
Pour un dirigeant, l'enjeu n'est pas de stocker pour stocker. C'est de garder une trace complète de l'activité, puis d'en tirer des chiffres fiables au bon moment.
Quand nous avons mis en place ce socle pour une cartonnerie, par exemple, tout est parti d'un même réservoir de données machine et ERP. De là sont nés cinq tableaux de bord, 1 875 ordres de fabrication suivis et 169 alertes de rupture automatiques. Le réservoir d'abord, le pilotage ensuite.
Le piège du marais de données
Un data lake mal tenu se transforme vite en « marais de données » (data swamp). On y déverse tout, dans l'espoir de l'exploiter un jour, mais sans règles ni nettoyage. Résultat : des doublons, des données fausses, des fichiers oubliés. Le bassin clair devient une mare opaque où plus personne ne retrouve rien.
C'est le risque numéro un. Sans gouvernance, c'est-à-dire sans règles de qualité et de tri, un lac perd toute valeur. La donnée s'accumule mais devient inexploitable.
L'exemple parle de lui-même. Chez un fabricant métallurgique, nous avons découvert que 86 % des affaires marquées « actives » étaient en réalité déjà terminées. La donnée était bien là, mais fausse, et tous les indicateurs construits dessus étaient faussés. Un lac ne vaut que par la qualité de ce qu'on en sort.
Une PME a-t-elle vraiment besoin d'un data lake ?
Pas toujours sous cette forme, mais le besoin derrière est universel : réunir des données dispersées dans des outils qui ne se parlent pas. Une PME avec un ERP, un tableur de stock et un CRM a déjà le problème qu'un lac résout, à savoir centraliser sans rien perdre.
La vraie question n'est pas la taille du lac, mais ce que vous en faites. Un grand groupe construit une architecture lourde. Une PME a surtout besoin d'un endroit unique, fiable et tenu à jour.
Et ce besoin grandit avec l'IA. Une donnée centralisée et propre est la matière première de tout projet d'analyse avancée ou de prévision. Sans socle, pas d'exploitation sérieuse en aval.
Le data lake avec Clidd, sans équipe data
Réunir la donnée ne suffit pas : encore faut-il qu'elle soit juste et qu'elle le reste. C'est précisément la part du travail que Clidd prend en charge. Vos données d'ERP, de comptabilité et de stock sont rassemblées, nettoyées et maintenues à jour, sans que vous ayez à monter une équipe technique.
Les outils de BI classiques restituent une donnée déjà propre. Le vrai travail se situe avant : construire la donnée, la fiabiliser, l'entretenir dans le temps. C'est ce qui évite qu'un réservoir de données ne devienne un marais.
La première étape reste la même pour toute PME : consolider vos données éparpillées en un seul endroit, puis exploiter les données de votre ERP pour piloter sur des chiffres fiables.
Questions fréquentes
Quelle est la différence entre un data lake et un entrepôt de données ?
Un data lake stocke des données brutes, dans tous les formats, et les met en forme au moment de l'analyse. Un entrepôt de données ne prend que des données déjà nettoyées et rangées selon un modèle défini à l'avance. Le lac est souple, l'entrepôt est prêt à l'emploi.
Un data lake, est-ce la même chose qu'une base de données ?
Non. Une base de données range la donnée selon une structure stricte dès l'entrée. Un data lake accepte tout type de fichier dans son format d'origine et ne structure qu'au moment où l'on veut analyser. Il sert surtout à tout conserver sans rien jeter.
Qu'est-ce qu'un marais de données ?
Un marais de données (data swamp) est un data lake mal géré. On y a déversé des données sans règles de qualité ni tri, si bien qu'elles deviennent inexploitables : doublons, erreurs, fichiers oubliés. C'est le principal risque d'un lac sans gouvernance.
Une PME a-t-elle besoin d'un data lake ?
Le besoin derrière est universel : réunir des données dispersées dans des outils qui ne se parlent pas. Pour une PME, l'enjeu n'est pas la taille du dispositif, mais d'avoir un endroit unique, fiable et tenu à jour. C'est ce socle qui rend possible un pilotage juste.
Faut-il une équipe technique pour gérer un data lake ?
Historiquement, oui. Aujourd'hui, des plateformes gérées rassemblent, nettoient et maintiennent la donnée à votre place. Une PME peut donc disposer d'un socle de données fiable sans recruter de data analysts ni lancer un projet informatique lourd.
Pour aller plus loin
Ressources complémentaires
- Wikipédia, « Lac de données »
- AWS, « Différence entre entrepôt de données, lac de données et data mart »
- Blog du Modérateur, « Baromètre du numérique des TPE et PME 2025 » (France Num)


