or
Cet exercice fait partie du cours
Dans ce chapitre, vous découvrirez ce qu’est le feature engineering et comment commencer à l’appliquer à des données réelles. Vous chargerez, explorerez et visualiserez un jeu de réponses d’enquête et, ce faisant, vous apprendrez ses types de données sous-jacents et pourquoi ils influencent la manière dont vous devez créer vos variables. Avec le package pandas, vous créerez de nouvelles variables à partir de colonnes tant catégorielles que continues.
Ce chapitre vous présente la réalité de données incomplètes et désordonnées. Vous apprendrez à repérer les valeurs manquantes et à explorer plusieurs approches pour les traiter. Vous utiliserez également des techniques de manipulation de chaînes de caractères pour gérer les caractères indésirables dans votre jeu de données.
Dans ce chapitre, vous vous concentrerez sur l’analyse de la distribution sous-jacente de vos données et sur son impact potentiel sur votre pipeline de Machine Learning. Vous apprendrez à gérer des données asymétriques et des situations où des valeurs aberrantes peuvent nuire à votre analyse.
Enfin, dans ce chapitre, vous travaillerez avec des données textuelles non structurées et verrez comment créer des variables en colonnes à partir d’un corpus. Vous comparerez différentes approches selon la quantité de contexte extraite d’un texte et apprendrez à trouver l’équilibre entre richesse de contexte et nombre de variables générées.
Exercice en cours