La qualité d'une donnée se mesure à travers ses caractéristiques intrinsèques, qu'elles soient internes ou externes à l'entreprise. Nous pouvons citer l'exactitude, l'exhaustivité, la cohérence, la validité, l'actualité, l'intégrité, la clarté ou même la sécurité de la donnée.
Ces six critères sont la pertinence, l'exactitude, l'actualité, l'accessibilité, l'intelligibilité et la cohérence.
Pour pouvoir être exploitées par l'environnement de Business Intelligence de l'entreprise, ces données doivent être préparées: structuration, déduplication et plus généralement « nettoyage ».
Un traitement de données de qualité répond à quatre étapes incontournables. Il s'agit dans un premier temps de la collecte des données, du nettoyage de données puis de la structuration des données et enfin de l'analyse des données. C'est la première étape du processus de traitement de données.
Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales. Les données quantitatives peuvent être discrète ou continue et sont aussi appelées données numériques.
A partir de ces points de considération, la qualité des données peut être jaugée à l'aune de différents indicateurs : son profil, son exactitude, sa complétude, sa conformité, son intégrité, sa consistance, sa disponibilité, son applicabilité, son intelligibilité, son intégration, sa flexibilité, sa comparabilité, sa ...
Cet objectif regroupe les tâches d'évaluation de la qualité et de la pertinence des sources d'information en fonction de six critères spécifiques : validité, fiabilité, actualité, crédibilité, point de vue et objectivité.
La notion de qualité des données est un terme générique décrivant à la fois les différentes caractéristiques des données mais aussi l'ensemble des processus permettant de garantir ces caractéristiques. Une donnée est dite de qualité dès lors qu'elle répond aux exigences de son utilisation.
La description d'une variable qualitative consiste à présenter les effectifs, c'est-à-dire le nombre d'individus de l'échantillon pour chaque modalité de la variable, et les fré- quences, c'est-à-dire la proportion des réponses associées à chaque modalité de la variable étudiée.
Les sources d'information sont habituellement classées en trois grandes catégories : les sources primaires, secondaires et tertiaires.
Conclusion. Les 3 principaux critères permettant d'évaluer la pertinence des informations trouvées sur Internet sont la provenance du document, la fiabilité du contenu et le but poursuivi par l'auteur.
Quelques conseils ....
prendre l'habitude de remonter l'arborescence pour préciser la nature du site, trouver son auteur etc ...... rechercher toujours la date de création du site, la date de publication de la page, sa mise à jour. L'intérêt de l'internet est d'offrir des informations d'actualité.
Les plus connus sont par exemple Statistica, Stata ou encore SPSS. Ces logiciels permettent également de travailler sur des données textuelles, mais d'autres outils ont été spécifiquement développés en sciences humaines et sociales pour le traitement statistique de corpus de texte.
L'indicateur doit être défini en termes précis et sans ambigüité décrivant clairement et exactement ce qui est mesuré. Lorsqu'il est possible, il doit donner une relativement bonne idée des données nécessaires et de la population au sein de la quelle la mesure est effectuée.
2. Les 7 outils de base de la qualité : Les 7 outils de base de la qualité sont: QQOQCP, Diagramme cause effet (5M), Brainstorming, Diagramme de Pareto, Le vote pondéré, le logigramme, la matrice de compatibilité.
Les données structurées utilisent le schéma à l'écriture tandis que les données non structurées celui à la lecture. Les données structurées sont généralement stockées dans des data warehouses et les données non structurées dans des data lakes.