or
Cet exercice fait partie du cours
Dans ce chapitre, vous allez apprendre à résoudre certains des problèmes les plus courants de données imparfaites. Vous convertirez des types de données, appliquerez des contraintes de plage pour exclure des points futurs et supprimerez les doublons afin d’éviter les doubles comptages.
Les données catégorielles et textuelles sont souvent parmi les plus désordonnées d’un jeu de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences d’espacement et de capitalisation dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater des chaînes pour assurer la cohérence.
Dans ce chapitre, vous vous attaquerez à des problèmes de nettoyage plus avancés, comme garantir que les poids sont tous exprimés en kilogrammes et non en livres. Vous développerez également des compétences précieuses pour vérifier que les valeurs ont été saisies correctement et que les valeurs manquantes n’impactent pas négativement vos analyses.
Exercice en cours
Le record linkage est une technique puissante pour fusionner plusieurs jeux de données lorsque les valeurs comportent des fautes ou des variantes d’orthographe. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes ; vous mettrez ensuite en pratique vos nouvelles compétences pour réunir deux jeux de données d’avis de restaurants en un jeu maître propre.