Les données structurées sont très précises et stockées dans un format prédéfini, alors que les données non structurées sont une conglomération de nombreuses données de différents types qui sont stockées dans leurs formats en mode natif.
Les données non structurées peuvent être définies comme des données qui ne sont pas gérées activement dans un système transactionnel, par exemple des données qui ne résident pas dans un système de gestion de bases de données relationnelles (RDBMS).
Une donnée structurée est organisée sous forme d'un tableau appelé table de données. La première ligne décrit la forme des lignes suivantes : ce sont les noms de champ ou descripteurs. Les lignes suivantes sont appelées des objets : elles sont la liste des valeurs de chacun des descripteurs.
Ces données structurées sont un format normalisé permettant de fournir des informations sur une page et de classer le contenu de cette page. Par exemple, sur une page de recette, il peut s'agir des ingrédients, du temps et de la température de cuisson, des calories, etc.
Que sont les données structurées ? Ce sont des informations organisées et classées afin de faciliter leur lecture et leur traitement. Table de données : une collection de données partageant les mêmes descripteurs peut être structurée dans une table. Les objets en lignes, les descripteurs en colonne.
Une donnée structurée est une données qui a été prédéfinie et formatée selon une structure précise avant d'être placée dans un data warehouse, un processus désigné par « schema-on-write », ou schéma à l'écriture.
Le traitement des données non-structurées
Si les données structurées peuvent être manipulées manuellement, ce n'est pas le cas des données non-structurées. Pour traiter ces dernières, il faut recourir au Deep Learning et à des techniques Data Science.
« L'un des moyens les plus simples d'ajouter le balisage structuré de Schema à une page consiste à utiliser JSON-LD. Avec cet outil, vous pouvez rapidement générer le bon JSON-LD pour n'importe quelle page de votre site. » Cet outil vous permet de choisir le type de données structurées que vous souhaitez créer.
Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML. L'acronyme CSV signifie "Comma Separated Values" c'est-à-dire "valeurs séparées par une virgule". L'acronyme JSON signifie "JavaScript Object Notation" c'est-à-dire "notation d'objets en Javascript".
Une structure de données est un format spécial destiné à organiser, traiter, extraire et stocker des données. S'il existe plusieurs types de structures plus ou moins complexes, tous visent à organiser les données pour répondre à un besoin précis, afin de pouvoir y accéder et les traiter de façon appropriée.
Le type catégoriques s'embranche en 2 type de données catégoriques qui sont "nominales" et "ordinales". Le types quantitatives s'embranche en 2 types de données quantitatives qui sont "discètres" et "continues".) Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives.
C'est à cette fin que l'Anglais Edgar Codd met au point en 1970 le modèle relationnel : une représentation logique et rationnelle des données permettant de les rendre exploitable.
Les fichiers structurés sont des fichiers interprétables comme une suite d'enregistrements d'un certain type. Tous les enregistrements sont forcéments de même taille. Les fichiers structurés peuvent être vus comme la représentation d'un tableau en mémoire auxilliaire.
Descripteur : mot ou un groupe de mots choisi pour caractériser les informations contenues dans un document et pour faciliter les recherches.
Il y a des bases de données qui sont distribuées et orientées document comme MongoDB. Le HDFS permet de stocker des fichiers de tout type. Chaque type de base de données NoSQL permet de charger un type de structure : Sans-Schema, Document, Graph, Colonnes.
Il s'agit d'une liste d' « objets » qui sont ici des personnes et on peut les décrire grâce à des « descripteurs » (ou « champs ») : nom, prénom, adresse, numéro de téléphone.
On parle depuis quelques années du phénomène de big data , que l'on traduit souvent par « données massives ». Avec le développement des nouvelles technologies, d'internet et des réseaux sociaux ces vingt dernières années, la production de données numériques a été de plus en plus nombreuse : textes, photos, vidéos, etc.
Distinguer la valeur d'une donnée de son descripteur. Utiliser un site de données ouvertes, pour sélectionner et récupérer des données. Réaliser des opérations de recherche, filtre, tri ou calcul sur une ou plusieurs tables. Retrouver les métadonnées d'un fichier personnel.
Les risques liés à la non-qualité
Une information erronée conduit inévitablement à des erreurs stratégiques. Dans le domaine du commerce, une mauvaise qualité des données mène à une analyse faussée et impacte la prise de décision pour l'entreprise.
Cours : Objets, Descripteurs et Valeur
Une collection est un ensemble d'objets (concrets ou abstraits) dont on collecte des données, partageant les mêmes descripteurs. Un objet est un élément de cette collection. Un descripteur désigne l'aspect de l'objet concerné par la donnée.