Gérer les caractères indésirables (II)

Dans le dernier exercice, vous avez rapidement repéré, grâce à l’appel à df.head(), quels caractères posaient problème. Dans bien des cas, ce ne sera pas aussi évident. Il arrive souvent que des valeurs, enfouies au milieu d’une colonne, empêchent de convertir celle-ci en type numérique pour l’utiliser dans un modèle ou pour aller plus loin en ingénierie des caractéristiques.

Une manière de trouver ces valeurs consiste à forcer la colonne vers le type souhaité avec pd.to_numeric(), en transformant en NaN toutes les valeurs problématiques, puis à filtrer le DataFrame pour ne garder que les lignes contenant ces NaN.

Essayez de convertir la colonne RawSalary en float : l’opération échouera, car un caractère supplémentaire s’y cache. Trouvez ce caractère et supprimez-le afin que la colonne puisse être convertie en float.

Cet exercice fait partie du cours

<cours>Feature engineering pour le Machine Learning en Python</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Attempt to convert the column to numeric values
numeric_vals = ____(so_survey_df['RawSalary'], errors='coerce')

# Find the indexes of missing values
idx = ____

# Print the relevant rows
print(so_survey_df['RawSalary']____)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Feature engineering pour le Machine Learning en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

In this chapter, you will explore what feature engineering is and how to get started with applying it to real-world data. You will load, explore and visualize a survey response dataset, and in doing so you will learn about its underlying data types and why they have an influence on how you should engineer your features. Using the pandas package you will create new features from both categorical and continuous columns.

Exercise 1: Why generate features?Exercise 2: Getting to know your data Exercise 3: Selecting specific data types Exercise 4: Dealing with categorical features Exercise 5: One-hot encoding and dummy variables Exercise 6: Dealing with uncommon categories Exercise 7: Numeric variables Exercise 8: Binarizing columns Exercise 9: Binning values

This chapter introduces you to the reality of messy and incomplete data. You will learn how to find where your data has missing values and explore multiple approaches on how to deal with them. You will also use string manipulation techniques to deal with unwanted characters in your dataset.

Exercise 1: Pourquoi existe-t-il des valeurs manquantes ?Exercise 2: À quel point mes données sont-elles clairsemées ?Exercise 3: Repérer les valeurs manquantes Exercise 4: Gérer les valeurs manquantes (I)Exercise 5: Suppression par liste Exercise 6: Remplacer les valeurs manquantes par des constantes Exercise 7: Gérer les valeurs manquantes (II)Exercise 8: Remplir des valeurs continues manquantes Exercise 9: Imputation de valeurs dans les modèles prédictifs Exercise 10: Gérer d’autres problèmes de données Exercise 11: Gérer les caractères parasites (I)Exercise 12: Gérer les caractères indésirables (II)

Exercice actuel

Exercise 13: Chaînage de méthodes

In this chapter, you will focus on analyzing the underlying distribution of your data and whether it will impact your machine learning pipeline. You will learn how to deal with skewed data and situations where outliers may be negatively impacting your analysis.

Exercise 1: Data distributions Exercise 2: What does your data look like? (I)Exercise 3: What does your data look like? (II)Exercise 4: When don't you have to transform your data?Exercise 5: Scaling and transformations Exercise 6: Normalization Exercise 7: Standardization Exercise 8: Log transformation Exercise 9: When can you use normalization?Exercise 10: Removing outliers Exercise 11: Percentage based outlier removal Exercise 12: Statistical outlier removal Exercise 13: Scaling and transforming new data Exercise 14: Train and testing transformations (I)Exercise 15: Train and testing transformations (II)

Finally, in this chapter, you will work with unstructured text data, understanding ways in which you can engineer columnar features out of a text corpus. You will compare how different approaches may impact how much context is being extracted from a text, and how to balance the need for context, without too many features being created.

Exercise 1: Encoding text Exercise 2: Cleaning up your text Exercise 3: High level text features Exercise 4: Word counts Exercise 5: Counting words (I)Exercise 6: Counting words (II)Exercise 7: Limiting your features Exercise 8: Text to DataFrame Exercise 9: Term frequency-inverse document frequency Exercise 10: Tf-idf Exercise 11: Inspecting Tf-idf values Exercise 12: Transforming unseen data Exercise 13: N-grams Exercise 14: Using longer n-grams Exercise 15: Finding the most common words Exercise 16: Wrap-up