Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales. Les données quantitatives peuvent être discrète ou continue et sont aussi appelées données numériques.
En analyse de données, on distingue principalement deux modèles de données ou variables : les données quantitatives et les données qualitatives. Il existe une différence notable entre une donnée quantitative et une donnée qualitative. Ces deux modèles sont largement utilisés en analyse de données.
Les types de données
Les données scientifiques sont de différente nature selon leur mode de création, leur analyse et leur traitement : elles sont alors brutes, formatées, nettoyées, compilées,… Elles peuvent aussi être de différents types : numériques, textuelles, audiovisuelles, codes sources, modèles,…
Les types de données numériques non intégré sont Decimal (point fixe 128 bits), Type de données unique (virgule flottante 32 bits) et Type de données double (virgule flottante 64 bits). Ils sont tous des types signés. Si une variable peut contenir une fraction, déclarez-la comme l'un de ces types.
Les données relatives à l'identité (nom, prénom, adresse, photo, date et lieu de naissance, etc.) Les données relatives à la vie personnelle (habitudes de vie, de consommation, loisirs, situation familiale, etc.) Les données relatives à la vie professionnelle (CV, diplômes, formation, fonction, lieu de travail, etc.)
1Les données primaires sont des informations spécifiquement collectées pour étudier un phénomène particulier. Les données secondaires sont des informations qui ont déjà été collectées dans un but différent de celui de l'étude menée et qui sont à disposition pour une seconde utilisation.
Quels types d'informations ? Les informations traitées par l'informatique sont de différentes natures ; des nombres, du texte, des sons, des images, des clips vidéo etc. mais aussi les instructions des programmes informatiques qui traitent tous ces types d'informations.
La plupart des bons algorithmes fonctionnent grâce à une méthode astucieuse pour organiser les données. Nous allons étudier quatre grandes classes de structures de données : Les structures de données séquentielles (tableaux) ; Les structures de données linéaires (liste chaînées) ; Les arbres ; Les graphes.
Niveau 1 : Données très sensibles de l'entreprise ou de clients. Niveau 2 : Données internes sensibles. Niveau 3 : Données internes qui ne sont pas destinées à être divulguées au public. Niveau 4 : Données pouvant être divulguées au public.
Les données structurées peuvent être générées par l'homme ou par une machine. Les statistiques de blog et les données relatives aux ventes, comme les codes-barres et les quantités, sont des exemples-types de données structurées générées par des machines.
Les informations utiles sont celles dont on a besoin pour répondre à la question posée. Les informations inutiles sont celles qui n'ont aucune importance pour la résolution du problème.
Le type date, plutôt appelé type temporel. Il existe plusieurs types temporels, suivant que l'on souhaite enregistrer une date précise à l'heure près, ou au jour près (entre autres). Le type binaire. Ce type est utilisé pour stocker des informations purement binaires (les images par exemple), ou de très grande taille.
Nous vous conseillons d'utiliser une base de données en colonnes : Si la vitesse est un critère important (pour faire de l'analyse Big Data par exemple). Pour stocker des données en Big Data. Si votre projet nécessite le traitement de très gros volumes de données.
Une information est une donnée à laquelle un sens (ou une interprétation) a été ajouté. En d'autres termes, l'information est une donnée placée dans un contexte pour l'augmenter d'un sens. On peut, d'une information, proposer une action ou une réponse.
Un SI permet de créer, collecter, stocker, traiter, modifier des informations sous divers formats. L'objectif d'un SI est de restituer une information à la bonne personne et au bon moment sous le format approprié.
Les données qualitatives sont utilisées pour décrire les informations. Comme ces données peuvent être facilement regroupées en catégories, elles sont communément appelées données catégorielles.
Une donnée peut être élémentaire ou complexe. Une donnée élémentaire représente une caractéristique de base (un nom, un numéro, etc.). Cette donnée est caractérisée par un descripteur qui permet de donner le format dans lequel cette donnée est représentée.
Pour faire simple, les données quantitatives fournissent les chiffres qui valident les points généraux de votre étude alors que les données qualitatives apportent les détails et le contexte pour en comprendre toutes les implications.
C'est le cas par exemple d'un nom, d'un prénom, d'un numéro de téléphone, d'une adresse électronique, d'un numéro de carte d'identité et/ou de sécurité sociale, d'une adresse IP, d'une photo, d'un profil sur un réseau social.
directement (exemple : nom, prénom) ou indirectement (exemple : par un identifiant (n° client), un numéro (de téléphone), une donnée biométrique, plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale, mais aussi la voix ou l'image).
Exemples de données à caractère personnel:
une adresse personnelle; une adresse e-mail telle que pré[email protected]; un numéro de carte d'identité; des données de localisation (par exemple: la fonction de localisation d'un téléphone portable)*;