or
Cet exercice fait partie du cours
Dans ce chapitre, vous apprendrez comment surmonter certains des problèmes les plus courants liés aux données erronées. Vous convertirez les types de données, appliquerez des contraintes de plage pour supprimer les points de données futurs et supprimerez les points de données en double afin d'éviter les doubles comptages.
Les données catégorielles et textuelles peuvent souvent constituer les parties les plus complexes d'un ensemble de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences en matière d'espaces et de majuscules dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater les chaînes de caractères pour plus de cohérence.
Dans ce chapitre, vous aborderez des problèmes plus avancés liés au nettoyage des données, tels que la vérification que tous les poids sont exprimés en kilogrammes plutôt qu'en livres. Vous acquerrez également des compétences inestimables qui vous aideront à vérifier que les valeurs ont été ajoutées correctement et que les valeurs manquantes n'ont pas d'impact négatif sur vos analyses.
Exercice en cours
Le couplage d'enregistrements est une technique efficace utilisée pour fusionner plusieurs ensembles de données, notamment lorsque les valeurs contiennent des erreurs de frappe ou des orthographes différentes. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes de caractères. Vous utiliserez ensuite vos nouvelles compétences pour fusionner deux ensembles de données d'avis sur des restaurants en un seul ensemble de données maître propre.