Forêts aléatoires

Les Random Forests sont une méthode d’ensemble classique et puissante qui combine des arbres de décision individuels grâce à l’agrégation bootstrap (ou bagging). Deux hyperparamètres principaux pour ce type de modèle sont le nombre d’arbres et la profondeur maximale de chaque arbre. Dans cet exercice, vous allez implémenter et évaluer un classifieur de forêt aléatoire simple avec quelques valeurs d’hyperparamètres fixées.

X_train, y_train, X_test, y_test sont disponibles dans votre espace de travail. pandas sous pd, numpy sous np, et sklearn sont également disponibles. RandomForestClassifier() de sklearn.ensemble est aussi disponible, ainsi que roc_curve() et auc() de sklearn.metrics.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

Créez un classifieur de forêt aléatoire avec 50 arbres et une profondeur maximale de 5.
Entraînez le classifieur et obtenez les scores de probabilité via .predict_proba(), ainsi que les prédictions via .predict() pour les données de test.
Évaluez l’AUC de la courbe ROC du classifieur en utilisant d’abord roc_curve() pour calculer fpr et tpr, puis auc() sur le résultat.
Évaluez la précision et le rappel du classifieur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create random forest classifier with specified params
clf = ____(____ = 50, ____ = 5)

# Train classifier - predict probability score and label
y_score = clf.____(X_train, y_train).____(X_test) 
y_pred = clf.____(X_train, y_train).____(X_test) 

# Get ROC curve metrics
fpr, tpr, thresholds = ____(y_test, y_score[:, 1])
print("ROC of AUC: %s"%(____(fpr, tpr)))

# Get precision and recall
precision = ____(y_test, y_pred, average = 'weighted')
recall = ____(y_test, y_pred, average = 'weighted')
print("Precision: %s, Recall: %s" %(precision, recall))

Modifier et exécuter le code

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

IntermédiaireNiveau de compétence

5.0+

Commencer le cours gratuitement

Il y a de fortes chances que vous soyez sur cette page parce que vous avez cliqué sur un lien. Dans ce chapitre, vous découvrirez pourquoi les taux de clics (CTR) sont essentiels à la publicité ciblée, comment effectuer des manipulations basiques de DataFrame, et comment utiliser des modèles de Machine Learning pour prédire le CTR.

Exercise 1: Introduction aux taux de clics Exercise 2: Premiers pas Exercise 3: Exploration des variables Exercise 4: Première évaluation des données Exercise 5: Aperçu des modèles de Machine Learning Exercise 6: Régression logistique pour le cancer du sein Exercise 7: Régression logistique pour des images Exercise 8: Un deuxième modèle jouet Exercise 9: Prédire le CTR avec des arbres de décision Exercise 10: Mise en œuvre du modèle Exercise 11: Un premier modèle de CTR Exercise 12: Au-delà de la simple exactitude

Ce chapitre pose les bases de l’analyse exploratoire des données (EDA). À l’aide d’un jeu de données d’exemple, vous utiliserez la bibliothèque pandas pour examiner les colonnes et les types, explorer les données manquantes et utiliser le hashing pour réaliser de l’ingénierie de features à partir de variables catégorielles. Autant d’étapes clés pour analyser les features et améliorer la précision des prédictions de CTR.

Exercise 1: Analyse exploratoire des données Exercise 2: Un premier aperçu Exercise 3: Vérifier les valeurs manquantes Exercise 4: Distributions selon le CTR Exercise 5: Ingénierie des caractéristiques Exercise 6: Analyser des colonnes datetime Exercise 7: Convertir des variables catégorielles Exercise 8: Créer de nouvelles features Exercise 9: Standardiser les caractéristiques Exercise 10: Normalisation logarithmique Exercise 11: Comprendre la standardisation Exercise 12: Standard scaling

Passons à la vitesse supérieure. Découvrez comment utiliser des mesures de performance des modèles, comme la précision et le rappel, pour répondre à des questions concrètes, par exemple évaluer le ROI des dépenses publicitaires. Vous verrez aussi comment améliorer ces métriques d’évaluation grâce aux méthodes d’ensemble et au réglage des hyperparamètres.

Exercise 1: Applications de l’évaluation des métriques Exercise 2: Quatre catégories de résultats Exercise 3: Évaluer quatre catégories Exercise 4: ROI des dépenses publicitaires Exercise 5: Évaluation du modèle Exercise 6: Précision et rappel Exercise 7: Référence de base Exercise 8: Comparaison de classifieurs Exercise 9: Ajuster les modèles Exercise 10: Régularisation Exercise 11: Validation croisée Exercise 12: Sélection de modèle Exercise 13: Ensembles et réglage des hyperparamètres Exercise 14: Comprendre l’ajustement des hyperparamètres Exercise 15: Forêts aléatoires

Exercice en cours

Exercise 16: Recherche par grille

La rentabilité de vos campagnes peut être fortement impactée par leur CTR. Dans ce chapitre, vous apprendrez comment le Deep Learning peut aider à réduire ce risque. Vous vous concentrerez sur les perceptrons multicouches (MLP) et les réseaux de neurones, et verrez comment ils permettent de capturer des relations complexes entre variables pour prédire le CTR avec plus de précision. Enfin, vous apprendrez à appliquer les bases du réglage des hyperparamètres et de la régularisation aux modèles de classification.

Exercise 1: Introduction au deep learning Exercise 2: Comprendre les MLP Exercise 3: Modèle de départ Exercise 4: MLP pour le CTR Exercise 5: Ajustement des hyperparamètres en deep learning Exercise 6: Ajustement des hyperparamètres dans les MLP Exercise 7: Faire varier les hyperparamètres Exercise 8: Recherche par grille pour MLP Exercise 9: Évaluation du modèle Exercise 10: Score F-bêta Exercise 11: Faible précision et AUC élevée Exercise 12: Précision, ROI et AUC Exercise 13: Revue et comparaison des modèles Exercise 14: Mise en jambe : comparaison de modèles Exercise 15: Évaluer la précision et le ROI Exercise 16: Score global Exercise 17: Vidéo de synthèse