La gestion de la qualité des données est un ensemble de stratégies, de méthodologies et de pratiques qui fournissent aux organisations des données fiables et adaptées à la prise de décision et d'autres initiatives de BI et d'analyse.
La Data Quality désigne l'aptitude des caractéristiques intrinsèques des données à satisfaire des exigences internes (pilotage, prise de décision) et externes (réglementations) à l'organisation. Ces critères sont nombreux et doivent dans tous les cas être mis en perspective de l'usage et l'exploitation qui en est fait.
Dans cette section, nous examinons les piliers les plus importants de la gestion de la qualité des données : les personnes, la mesure, les processus, le cadre et la technologie.
La qualité des données implique de préparer les données afin qu'elles répondent aux besoins spécifiques des utilisateurs métiers. Les données sont le bien le plus précieux de votre organisation, et les décisions prises sur la base de données erronées peuvent nuire à votre activité.
Une entreprise qui utilise des données de mauvaise qualité risque de s'exposer à des informations inexactes et à des décisions erronées, ce qui nuira à sa réputation et entraînera des pertes. C'est pourquoi la qualité des données est essentielle à la croissance et à la réussite des entreprises.
indicateur de résultat (progression en terme d'égalité de rémunération) indicateur interne (respect de la politique de genre) indicateur transversal (collecte systématique de données sur le critère genre)
Les 6 dimensions de la qualité des données. La pertinence, l'exactitude, l'actualité l'intelligibilité, la cohérence, l'accessibilité.
Toutefois, pour qu'une information soit de qualité, il faut qu'elle remplisse cinq critères : fiabilité, pertinence, actualité, originalité et accessibilité. La plupart du temps, l'obtention de cette information a un coût qui doit être raisonnable par rapport à l'objectif à atteindre.
La gouvernance des données repose sur 4 piliers principaux : l'organisation, les politiques et standards, les processus, et les outils. Chacun de ces piliers est indispensable à la mise en place d'une gouvernance efficace favorisant l'innovation par la donnée.
L'analyse des données joue également un rôle clé dans le processus d'évaluation de la qualité des données en indiquant les problèmes liés à la qualité des données dans une enquête particulière. Ainsi, l'analyse peut influer sur les améliorations futures au processus d'enquête.
"La qualité, c'est avant tout être capable de fournir la juste réponse aux besoins du client. Mais c'est aussi, travailler avec des moyens adaptés, une organisation méthodique et formalisée de façon adaptée, avec le souci permanent de mieux faire.
Les critères d'évaluation de l'information sont : la réputation, la crédibilité de l'auteur, la fiabilité des sources, la date de publication et l'exactitude de l'information.
Prendre les bonnes décisions
Avec des données approximatives, les décisions sont bancales, et les risques de se tromper, plus élevés. Analyser une donnée de qualité permet également de mettre en place des plans d'actions efficaces et fiables. Tout ceci a un impact direct sur la performance de l'entreprise.
Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales.
Volume, Vitesse et Variété : la définition du Big Data. Pour mieux comprendre ce qu'est le Big Data voici les 3 V qui le définissent : Volume, Vitesse et Variété.
Un indicateur de qualité et de sécurité des soins permet de mesurer un état de santé, une pratique ou la survenue d'un événement, et ainsi d'évaluer la qualité des soins et ses variations dans le temps.
Indicateurs de qualité : relation entre le total produit et la production pouvant faire l'objet d'un usage c'est à dire celle sans défaut ou non-conformité. Exemple : sur 1000 pièces produites au total 980 peuvent faire l'objet d'un usage (98% de qualité).
Afin de garantir la fiabilité des données, il convient de mettre en place et de suivre une méthode de collecte et de traitement cohérente, et ce quel que soit le type de données. Pour ce qui est de la validité des données, il est impératif de mettre en œuvre des protocoles de validation rigoureux.
La meilleure façon d'analyser les données d'intervalle consiste à utiliser des analyses de corrélation, ANOVA et t-tests. L'ANOVA peut être utilisée pour déterminer la signification des données. Les analyses de corrélation et les tests-t peuvent aider à évaluer si les ensembles de données ont une relation.