Transformations d’entraînement et de test (I)

Jusqu’ici, vous avez créé des scalers à partir d’une colonne, puis appliqué ce scaler aux mêmes données que celles sur lesquelles il a été entraîné. Lors de la création de modèles de Machine Learning, vous entraînez généralement vos modèles sur des données historiques (train set) et vous les appliquez à de nouvelles données jamais vues (test set). Dans ces cas, vous devez vous assurer que le même traitement de mise à l’échelle est appliqué aux données d’entraînement et de test. Pour cela, en pratique, vous entraînez le scaler sur le train set, puis vous conservez ce scaler entraîné pour l’appliquer au test set. Vous ne devez jamais réentraîner un scaler sur le test set.

Pour cet exercice et le suivant, nous avons scindé le DataFrame so_numeric_df en ensembles d’entraînement (so_train_numeric) et de test (so_test_numeric).

Cet exercice fait partie du cours

<cours>Feature engineering pour le Machine Learning en Python</cours>

Instructions de l’exercice

Instanciez StandardScaler() sous le nom SS_scaler.
Ajustez le StandardScaler sur la colonne Age.
Transformez la colonne Age dans l’ensemble de test (so_test_numeric).

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import StandardScaler
from sklearn.preprocessing import StandardScaler

# Apply a standard scaler to the data
SS_scaler = ____

# Fit the standard scaler to the data
____

# Transform the test data using the fitted scaler
so_test_numeric['Age_ss'] = ____
print(so_test_numeric[['Age', 'Age_ss']].head())

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Feature engineering pour le Machine Learning en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

In this chapter, you will explore what feature engineering is and how to get started with applying it to real-world data. You will load, explore and visualize a survey response dataset, and in doing so you will learn about its underlying data types and why they have an influence on how you should engineer your features. Using the pandas package you will create new features from both categorical and continuous columns.

Exercise 1: Why generate features?Exercise 2: Getting to know your data Exercise 3: Selecting specific data types Exercise 4: Dealing with categorical features Exercise 5: One-hot encoding and dummy variables Exercise 6: Dealing with uncommon categories Exercise 7: Numeric variables Exercise 8: Binarizing columns Exercise 9: Binning values

This chapter introduces you to the reality of messy and incomplete data. You will learn how to find where your data has missing values and explore multiple approaches on how to deal with them. You will also use string manipulation techniques to deal with unwanted characters in your dataset.

Exercise 1: Why do missing values exist?Exercise 2: How sparse is my data?Exercise 3: Finding the missing values Exercise 4: Dealing with missing values (I)Exercise 5: Listwise deletion Exercise 6: Replacing missing values with constants Exercise 7: Dealing with missing values (II)Exercise 8: Filling continuous missing values Exercise 9: Imputing values in predictive models Exercise 10: Dealing with other data issues Exercise 11: Dealing with stray characters (I)Exercise 12: Dealing with stray characters (II)Exercise 13: Method chaining

In this chapter, you will focus on analyzing the underlying distribution of your data and whether it will impact your machine learning pipeline. You will learn how to deal with skewed data and situations where outliers may be negatively impacting your analysis.

Exercise 1: Distributions de données Exercise 2: À quoi ressemblent vos données ? (I)Exercise 3: À quoi ressemblent vos données ? (II)Exercise 4: Dans quels cas n’avez-vous pas besoin de transformer vos données ?Exercise 5: Mise à l’échelle et transformations Exercise 6: Normalisation Exercise 7: Standardisation Exercise 8: Transformation logarithmique Exercise 9: Quand pouvez-vous utiliser la normalisation ?Exercise 10: Suppression des valeurs aberrantes Exercise 11: Suppression des valeurs aberrantes basée sur un pourcentage Exercise 12: Suppression statistique des valeurs aberrantes Exercise 13: Mettre à l’échelle et transformer de nouvelles données Exercise 14: Transformations d’entraînement et de test (I)

Exercice actuel

Exercise 15: Transformations d’entraînement et de test (II)

Finally, in this chapter, you will work with unstructured text data, understanding ways in which you can engineer columnar features out of a text corpus. You will compare how different approaches may impact how much context is being extracted from a text, and how to balance the need for context, without too many features being created.

Exercise 1: Encoding text Exercise 2: Cleaning up your text Exercise 3: High level text features Exercise 4: Word counts Exercise 5: Counting words (I)Exercise 6: Counting words (II)Exercise 7: Limiting your features Exercise 8: Text to DataFrame Exercise 9: Term frequency-inverse document frequency Exercise 10: Tf-idf Exercise 11: Inspecting Tf-idf values Exercise 12: Transforming unseen data Exercise 13: N-grams Exercise 14: Using longer n-grams Exercise 15: Finding the most common words Exercise 16: Wrap-up