Convertir des variables catégorielles

Comme sklearn exige des caractéristiques numériques en entrée des modèles, il est important d’encoder les variables catégorielles en variables numériques. La technique la plus courante, appelée « one-hot encoding », est simple mais consomme beaucoup de mémoire. Pour cette raison, vous allez utiliser la technique du hashing, qui transforme les entrées catégorielles en valeurs numériques, pour chaque colonne catégorielle.

Le module pandas est disponible sous le nom pd dans votre environnement de travail et le DataFrame d’exemple est chargé dans df.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

Sélectionnez les colonnes catégorielles en filtrant sur le type de données.
Appliquez une fonction de hachage à chacune des colonnes catégorielles.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))

Modifier et exécuter le code

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

IntermédiaireNiveau de compétence

5.0+

Commencer le cours gratuitement

Il y a de fortes chances que vous soyez sur cette page parce que vous avez cliqué sur un lien. Dans ce chapitre, vous découvrirez pourquoi les taux de clics (CTR) sont essentiels à la publicité ciblée, comment effectuer des manipulations basiques de DataFrame, et comment utiliser des modèles de Machine Learning pour prédire le CTR.

Exercise 1: Introduction aux taux de clics Exercise 2: Premiers pas Exercise 3: Exploration des variables Exercise 4: Première évaluation des données Exercise 5: Aperçu des modèles de Machine Learning Exercise 6: Régression logistique pour le cancer du sein Exercise 7: Régression logistique pour des images Exercise 8: Un deuxième modèle jouet Exercise 9: Prédire le CTR avec des arbres de décision Exercise 10: Mise en œuvre du modèle Exercise 11: Un premier modèle de CTR Exercise 12: Au-delà de la simple exactitude

Ce chapitre pose les bases de l’analyse exploratoire des données (EDA). À l’aide d’un jeu de données d’exemple, vous utiliserez la bibliothèque pandas pour examiner les colonnes et les types, explorer les données manquantes et utiliser le hashing pour réaliser de l’ingénierie de features à partir de variables catégorielles. Autant d’étapes clés pour analyser les features et améliorer la précision des prédictions de CTR.

Exercise 1: Analyse exploratoire des données Exercise 2: Un premier aperçu Exercise 3: Vérifier les valeurs manquantes Exercise 4: Distributions selon le CTR Exercise 5: Ingénierie des caractéristiques Exercise 6: Analyser des colonnes datetime Exercise 7: Convertir des variables catégorielles

Exercice en cours

Exercise 8: Créer de nouvelles features Exercise 9: Standardiser les caractéristiques Exercise 10: Normalisation logarithmique Exercise 11: Comprendre la standardisation Exercise 12: Standard scaling

Passons à la vitesse supérieure. Découvrez comment utiliser des mesures de performance des modèles, comme la précision et le rappel, pour répondre à des questions concrètes, par exemple évaluer le ROI des dépenses publicitaires. Vous verrez aussi comment améliorer ces métriques d’évaluation grâce aux méthodes d’ensemble et au réglage des hyperparamètres.

Exercise 1: Applications de l’évaluation des métriques Exercise 2: Quatre catégories de résultats Exercise 3: Évaluer quatre catégories Exercise 4: ROI des dépenses publicitaires Exercise 5: Évaluation du modèle Exercise 6: Précision et rappel Exercise 7: Référence de base Exercise 8: Comparaison de classifieurs Exercise 9: Ajuster les modèles Exercise 10: Régularisation Exercise 11: Validation croisée Exercise 12: Sélection de modèle Exercise 13: Ensembles et réglage des hyperparamètres Exercise 14: Comprendre l’ajustement des hyperparamètres Exercise 15: Forêts aléatoires Exercise 16: Recherche par grille

La rentabilité de vos campagnes peut être fortement impactée par leur CTR. Dans ce chapitre, vous apprendrez comment le Deep Learning peut aider à réduire ce risque. Vous vous concentrerez sur les perceptrons multicouches (MLP) et les réseaux de neurones, et verrez comment ils permettent de capturer des relations complexes entre variables pour prédire le CTR avec plus de précision. Enfin, vous apprendrez à appliquer les bases du réglage des hyperparamètres et de la régularisation aux modèles de classification.

Exercise 1: Introduction au deep learning Exercise 2: Comprendre les MLP Exercise 3: Modèle de départ Exercise 4: MLP pour le CTR Exercise 5: Ajustement des hyperparamètres en deep learning Exercise 6: Ajustement des hyperparamètres dans les MLP Exercise 7: Faire varier les hyperparamètres Exercise 8: Recherche par grille pour MLP Exercise 9: Évaluation du modèle Exercise 10: Score F-bêta Exercise 11: Faible précision et AUC élevée Exercise 12: Précision, ROI et AUC Exercise 13: Revue et comparaison des modèles Exercise 14: Mise en jambe : comparaison de modèles Exercise 15: Évaluer la précision et le ROI Exercise 16: Score global Exercise 17: Vidéo de synthèse