Cours 22.02.23

Information & donnée

Information : Recette -> exploitable
Donnée (atomique) : ingrédient

Données structurées

Définition

Une donnée structurée est une donnée qui a été prédéfinie et formatée selon une structure précise avant d'être placée dans un data warehouse, un processus désigné par « schema-on-write », ou schéma à l'écriture.

Avantages

Un traitement facile par les algorithmes de machine learning
Un traitement facile par les utilisateurs professionnels
Davantage d'outils accessibles

Inconvénient

Un but prédéfini en limite l'utilisation
Des options de stockage limitées

Exemple

Les base de données relationnelles (MySQL).

Les données structurées font partie de nos vies depuis longtemps. Les systèmes de contrôle des stocks et les distributeurs automatiques en dépendent. Les données structurées peuvent être générées par l'homme ou par une machine.

Données semi-structurées

Définition

On appelle données semi-structurées des données qui seraient normalement considérées comme des données non structurées, mais qui ont aussi des métadonnées avec certaines caractéristiques.

Avantages

Entre deux

Inconvénient

Entre deux

Exemple

XML, JSON, CSV

Données non structurées

Définition

Une donnée non structurée est une donnée stockée dans son format d'origine et non traitée avant son utilisation

Avantages

La liberté du format natif
Un taux d'accumulation plus rapide
Un stockage dans un data lake

Inconvénient

Expertise en data science
Outils spéciaux

Exemple

Les données non structurées sont qualitatives et non quantitatives, leur nature est donc principalement caractéristique et catégorielle.
Elles sont particulièrement efficaces pour évaluer l'efficacité d'une campagne marketing ou identifier des tendances chez les acheteurs potentiels via les réseaux sociaux et les avis sur les sites web. Elles peuvent aussi être très utiles à l'entreprise car elles lui permettent de veiller au respect des politiques de conformité, puisqu'elles peuvent être utilisées pour déceler des contenus inappropriés dans des chats ou des échanges suspects dans des e-mails.

Données qualitatives & quantitatives

Les données qualitatives et quantitatives sont deux types de données qui peuvent être utilisés pour décrire des phénomènes ou des observations. Les données qualitatives décrivent des caractéristiques ou des attributs qui ne peuvent pas être mesurés de manière numérique, tandis que les données quantitatives décrivent des mesures numériques.

Voici des exemples de données qualitatives et quantitatives :

Données qualitatives : Les données qualitatives décrivent des caractéristiques ou des attributs qui ne peuvent pas être mesurés numériquement. Voici quelques exemples :

La couleur des yeux : Les couleurs des yeux, telles que le bleu, le vert, le marron, etc., sont des exemples de données qualitatives.
La marque de voiture préférée : Si vous demandez à un groupe de personnes de nommer leur marque de voiture préférée, les réponses que vous obtiendrez sont des exemples de données qualitatives.
L'opinion sur un film : Si vous demandez à quelqu'un ce qu'il pense d'un film, la réponse sera une donnée qualitative.

Données quantitatives : Les données quantitatives décrivent des mesures numériques. Voici quelques exemples :

La taille d'une personne : La hauteur d'une personne est une donnée quantitative car elle peut être mesurée numériquement, par exemple en centimètres.
La température : La température est une donnée quantitative car elle peut être mesurée en degrés Celsius ou Fahrenheit.
Le nombre de likes sur une publication : Le nombre de likes sur une publication sur les réseaux sociaux est une donnée quantitative car il peut être compté et mesuré numériquement.

En résumé, les données qualitatives décrivent des caractéristiques ou des attributs qui ne peuvent pas être mesurés de manière numérique, tandis que les données quantitatives décrivent des mesures numériques. Les deux types de données sont importants pour comprendre et décrire le monde qui nous entoure, et ils peuvent être utilisés ensemble pour obtenir une image plus complète d'un phénomène ou d'une observation.

Quels outils ou quels langages à utiliser dans quelle situation ?

SGBD (SQL) : Les systèmes de gestion de bases de données relationnelles (SGBDR) tels que MySQL, Oracle, PostgreSQL et SQL Server sont généralement utilisés pour stocker et manipuler des données structurées. Les SGBDR utilisent le langage SQL pour interroger et manipuler les données, et ils sont bien adaptés pour les applications où les données sont fortement structurées, telles que les systèmes de gestion de l'inventaire, de la facturation et de la gestion des stocks.
NoSQL : Les bases de données NoSQL, telles que MongoDB, Cassandra, Couchbase, et Amazon DynamoDB sont conçues pour stocker et manipuler des données semi-structurées et non structurées. Elles sont souvent utilisées pour les applications web modernes, les jeux, les applications mobiles et les réseaux sociaux. Les bases de données NoSQL offrent une grande évolutivité et une grande disponibilité, ainsi qu'une flexibilité pour stocker différents types de données.
XML : Extensible Markup Language (XML) est un langage de balisage qui permet de stocker des données semi-structurées. XML est couramment utilisé pour échanger des données entre des applications ou des systèmes différents, tels que les services web, les applications d'entreprise et les bases de données. Les données XML sont faciles à valider, à parser et à transformer en utilisant des outils tels que XSLT.
JSON : JavaScript Object Notation (JSON) est un format de données léger et facile à lire pour stocker et échanger des données semi-structurées et non structurées. JSON est souvent utilisé dans les applications web modernes pour transférer des données entre le serveur et le client. Les données JSON sont faciles à parser et à transformer en utilisant des bibliothèques telles que JSON.NET et Jackson.
GraphQL : GraphQL est un langage de requête de données développé par Facebook pour simplifier l'interaction avec des API de données. GraphQL permet de demander uniquement les données nécessaires et d'obtenir des réponses plus efficaces et plus rapides que les API REST traditionnelles. GraphQL est souvent utilisé dans les applications web modernes pour améliorer les performances et la flexibilité des API.
Avro : Apache Avro est un système de sérialisation de données qui permet de stocker et de transmettre des données en mode binaire. Avro est souvent utilisé dans les applications Big Data pour stocker et transmettre de grandes quantités de données de manière efficace et évolutives. Avro est souvent utilisé avec d'autres outils Big Data tels que Hadoop et Spark.

Vue Introduction SQL