Standard scaling

La standardisation transforme les variables numériques pour qu’elles aient une moyenne de 0 et une variance de 1. Dans cet exercice, vous allez effectuer une standardisation avec StandardScaler() de sklearn. Vous commencerez par sélectionner uniquement les colonnes pertinentes sur lesquelles appliquer la mise à l’échelle, en combinant un filtrage des colonnes numériques avec votre connaissance des colonnes. Ce filtrage est déjà fourni et sera réalisé à l’aide d’expressions régulières, qui permettent des correspondances partielles sur les chaînes. Vous utiliserez ensuite fit_transform() pour transformer les colonnes pertinentes.

Le module pandas est disponible sous pd dans votre espace de travail et le DataFrame d’exemple est chargé sous df. De plus, la colonne hour est déjà convertie en datetime, et StandardScaler de sklearn.preprocessing est disponible.

Cet exercice fait partie du cours

<cours>Prédire le CTR avec le Machine Learning en Python</cours>

Instructions de l’exercice

Sélectionnez les colonnes numériques et filtrez les filter_cols donnés en utilisant .select_dtypes().
Appliquez la standardisation aux colonnes pertinentes en créant d’abord un StandardScaler() puis en utilisant .fit_transform().
Affichez la variance des colonnes nouvellement transformées avec .var().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Get non-categorical columns, with a filter
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
               'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
num_cols = new_df.____

# Transform columns using StandardScaler
scaler = ____()
df[num_cols] = scaler.____(df[____])

# Print mean and variance of transformed columns
print(df[num_cols].mean())
print(df[num_cols].____)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Prédire le CTR avec le Machine Learning en Python</cours>

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Il y a de fortes chances que vous soyez sur cette page parce que vous avez cliqué sur un lien. Dans ce chapitre, vous découvrirez pourquoi les taux de clics (CTR) sont essentiels à la publicité ciblée, comment effectuer des manipulations basiques de DataFrame, et comment utiliser des modèles de Machine Learning pour prédire le CTR.

Exercise 1: Introduction aux taux de clics Exercise 2: Premiers pas Exercise 3: Exploration des variables Exercise 4: Première évaluation des données Exercise 5: Aperçu des modèles de Machine Learning Exercise 6: Régression logistique pour le cancer du sein Exercise 7: Régression logistique pour des images Exercise 8: Un deuxième modèle jouet Exercise 9: Prédire le CTR avec des arbres de décision Exercise 10: Mise en œuvre du modèle Exercise 11: Un premier modèle de CTR Exercise 12: Au-delà de la simple exactitude

Ce chapitre pose les bases de l’analyse exploratoire des données (EDA). À l’aide d’un jeu de données d’exemple, vous utiliserez la bibliothèque pandas pour examiner les colonnes et les types, explorer les données manquantes et utiliser le hashing pour réaliser de l’ingénierie de features à partir de variables catégorielles. Autant d’étapes clés pour analyser les features et améliorer la précision des prédictions de CTR.

Exercise 1: Analyse exploratoire des données Exercise 2: Un premier aperçu Exercise 3: Vérifier les valeurs manquantes Exercise 4: Distributions selon le CTR Exercise 5: Ingénierie des caractéristiques Exercise 6: Analyser des colonnes datetime Exercise 7: Convertir des variables catégorielles Exercise 8: Créer de nouvelles features Exercise 9: Standardiser les caractéristiques Exercise 10: Normalisation logarithmique Exercise 11: Comprendre la standardisation Exercise 12: Standard scaling

Exercice actuel

Passons à la vitesse supérieure. Découvrez comment utiliser des mesures de performance des modèles, comme la précision et le rappel, pour répondre à des questions concrètes, par exemple évaluer le ROI des dépenses publicitaires. Vous verrez aussi comment améliorer ces métriques d’évaluation grâce aux méthodes d’ensemble et au réglage des hyperparamètres.

Exercise 1: Applications de l’évaluation des métriques Exercise 2: Quatre catégories de résultats Exercise 3: Évaluer quatre catégories Exercise 4: ROI des dépenses publicitaires Exercise 5: Évaluation du modèle Exercise 6: Précision et rappel Exercise 7: Référence de base Exercise 8: Comparaison de classifieurs Exercise 9: Ajuster les modèles Exercise 10: Régularisation Exercise 11: Validation croisée Exercise 12: Sélection de modèle Exercise 13: Ensembles et réglage des hyperparamètres Exercise 14: Comprendre l’ajustement des hyperparamètres Exercise 15: Forêts aléatoires Exercise 16: Recherche par grille

La rentabilité de vos campagnes peut être fortement impactée par leur CTR. Dans ce chapitre, vous apprendrez comment le Deep Learning peut aider à réduire ce risque. Vous vous concentrerez sur les perceptrons multicouches (MLP) et les réseaux de neurones, et verrez comment ils permettent de capturer des relations complexes entre variables pour prédire le CTR avec plus de précision. Enfin, vous apprendrez à appliquer les bases du réglage des hyperparamètres et de la régularisation aux modèles de classification.

Exercise 1: Introduction au deep learning Exercise 2: Comprendre les MLP Exercise 3: Modèle de départ Exercise 4: MLP pour le CTR Exercise 5: Ajustement des hyperparamètres en deep learning Exercise 6: Ajustement des hyperparamètres dans les MLP Exercise 7: Faire varier les hyperparamètres Exercise 8: Recherche par grille pour MLP Exercise 9: Évaluation du modèle Exercise 10: Score F-bêta Exercise 11: Faible précision et AUC élevée Exercise 12: Précision, ROI et AUC Exercise 13: Revue et comparaison des modèles Exercise 14: Mise en jambe : comparaison de modèles Exercise 15: Évaluer la précision et le ROI Exercise 16: Score global Exercise 17: Vidéo de synthèse