Comment nettoyer et enrichir ses données sans se lancer dans un projet informatique lourd et contraignant

article 26

Vous avez voulu analyser les données de votre système d’information pour :

  • Consolider les données comptables de vos entreprises
  • Gagner en flexibilité en cherchant la meilleure localisation de vos plateformes logistiques
  • Calculer vos parts de marché en croisant vos données avec celles de votre fédération professionnelle…

… Et les résultats que vous obtenez n’ont pas la qualité attendue, sont incomplets, ne sont pas fiables…

Vous allez devoir probablement nettoyer et / ou enrichir vos données.

Comment s’y prendre, sans se lancer dans un projet informatique lourd et contraignant ?

Ce qu’il faut savoir :

1) La qualité des données, dans les systèmes d’information, est souvent médiocre.

Il est difficile d’analyser des données de chiffres d’affaires si le format des données mélange des valeurs en euros, en Kilo euros et en dollars.

Il est tout autant difficile de tirer des conclusions si la moitié des enregistrements n’ont pas par exemple de chiffre d’affaires déclaré !

La nature des données aussi est souvent problématique ; comment analyser le poids que représente chacun des marchés de vos clients si l’information marché n’est pas stockée !

2)  La gouvernance des données dans les systèmes d’information est rarement exigeante.

Dans la plupart des organisations, la DSI n’assure pas la responsabilité de la qualité de la donnée et des référentiels, responsabilité dévolue aux métiers.

Quant aux Directions métiers, elles ont rarement les compétences pour accéder aux applicatifs et gérer dans le temps à la fois les volumes, la qualité des données et les référentiels associés.

Très rares enfin sont les organisations qui ont mis en place une gouvernance réellement efficiente sur ces sujets.

3) Les utilisateurs ont une tendance naturelle à rejeter les résultats des travaux sur les données des SI.

Le résultat de ces travaux est souvent différent de ceux qu’ils utilisent au quotidien (KPI, Tableaux de bord…), sans forcément comprendre que ce sont les règles de calcul, d’analyse ou de périmètre qui diffèrent.

Ce n’est pas normal mais facile à expliquer !

Les sources dont sont extraites les données, les périmètres d’analyse, les règles de calcul utilisées sont rarement connues et explicites.

Chaque organisation, chaque Business Unit créée ses indicateurs sans qu’aucun ne se consolide avec des règles de « calcul » homogènes.

Est-ce que ces tâches de nettoyage et d’enrichissement sont compliquées à mettre en œuvre ?

Ce sont des prestations très mécaniques qui demandent de la méthode, de la rigueur, et un peu de savoir-faire (qui s’acquiert très vite avec de la pratique).
Coté outil, vous aurez l’embarras du choix pour analyser en masse, normaliser, croiser les données.
Leur coût d’acquisition est parfois très faible, un ordinateur personnel suffit souvent pour les faire fonctionner.
La courbe d’apprentissage peut être très rapide.

C’est généralement coté data que le sujet peut devenir compliqué quand on doit traiter des données de plusieurs systèmes d’information, de formats hétérogènes, que les fichiers de données contiennent des milliers ou des millions de lignes, que les référentiels n’ont pas été maintenus à jour et que vous souhaitez enrichir vos données (par exemple avec des sources externes).

Quelle est la principale erreur à ne pas commettre ?

Ne pas avoir une idée précise du résultat à obtenir.
Le plus simple pour le définir consiste à dessiner / formaliser ce que vous souhaitez obtenir.

Quelles sont les tâches auxquelles on fait référence quant on parle de nettoyage ou d’enrichissement ?

On audite la donnée

  • Pour savoir sur quel périmètre on se situe. Il arrive souvent que les requêtes pour extraire une donnée d’un système d’information soient complexes et que l’extraction que l’on a demandée soit incomplète.
  • Pour comprendre la nature de l’information qui nous a été communiquée et sa structure. Cette analyse permet de savoir si l’information est prête à être utilisée ou non, si elle peut être enrichie ou non.
  • Pour vérifier la qualité de la donnée, son homogénéité, sa complétion.
  • Pour fixer les règles / indicateurs de contrôle permettant de mesurer la fiabilité des travaux à engager. Chaque traitement en masse doit être contrôlé et nécessite l’usage d’indicateurs quanti / quali issus de la phase d’audit.

On nettoie

  • Pour corriger les erreurs. Par exemple, on va enlever des commentaires saisis dans un champ réservé au numéro de téléphone.

On formate

  • Pour garantir la qualité / conformité du résultat attendu. Par exemple, en mettant des dates de facturation au même format (JJ/MM/AA).

On enrichit

  • Pour obtenir / ajouter de la valeur en croisant vos données avec celles d’autres fichiers, internes ou externes. Par exemple, on peut utiliser le numéro de TVA intracommunautaire d’une base de facturation pour extraire le SIREN d’une entreprise, récupérer le code NAF de cette entreprise en croisant les données avec la base SIRENE accessible en open data et ensuite appliquer une table de segmentation marketing pour affecter en fonction de chaque code NAF les entreprises à un marché.

On assemble

  • Pour ordonner, consolider les données et faciliter leur analyse. Par exemple, en liant des données de facturation et des données clients d’un CRM pour obtenir une donnée consolidée.

Quelle est la tâche que l’on oublie régulièrement alors qu’elle est essentielle ?

Le contrôle : Avec un peu de pratique, nettoyer et enrichir ne sont pas si compliqués. Par contre, être sûr que ce qui a fait l’objet de ces traitements correspond aux objectifs, au périmètre défini et que les travaux d’analyse qui en découleront seront fiables, preuves à l’appui, est le véritable enjeu pour toute maîtrise d’ouvrage qui se lance dans ces travaux.

Peut-on se faire accompagner et par qui ?

Les erreurs se cachent dans la masse des données comme des aiguilles dans une meule de foin !

Deux cas se présentent à vous :

1)   Vous avez une très bonne connaissance de votre métier et de vos données pour contrôler les travaux de nettoyage et d’enrichissement.              Vous pouvez chercher un technicien qui sait auditer, nettoyer, formater, enrichir, assembler.

2) Dans le cas contraire, il est de votre intérêt de vous faire accompagner par un professionnel qui devra être en mesure de :

  • Comprendre votre organisation, vos processus métiers, l’architecture de votre système d’information, pour pouvoir définir pourquoi et comment et pour quel résultat il va travailler.
  • Dialoguer avec vos services informatiques, pour pouvoir s’assurer que les sources d’extraction soient les bonnes, que le format d’extraction soit complet.
  • Vous garantir, chiffres à l’appui, la conformité / la pertinence des données, pour pouvoir s’assurer qu’il est sur le bon périmètre de données, qu’il n’en manque pas, ou en cas d’erreur, identifier ce qui est erroné
  • Vous présenter les règles et indicateurs de contrôle de ses travaux, pour s’assurer qu’il ne fait pas d’erreurs et vous rassurer sur la fiabilité des résultats.
  • Conserver l’historique de ses contrôles et les archives de chaque traitement, pour s’assurer de la fiabilité des traitements.
  • Pouvoir vous expliquer les résultats des analyses obtenues avec la logique des processus métiers et de l’organisation, pour donner du sens et de la fiabilité à vos conclusions.