Sélection de modèle

La régularisation et la validation croisée sont deux outils puissants pour la sélection de modèle. La régularisation aide à éviter le surapprentissage, et la validation croisée garantit une évaluation correcte de vos modèles. Dans cet exercice, vous allez combiner régularisation et validation croisée pour voir si les modèles diffèrent de manière significative. Vous calculerez uniquement la précision, mais le même exercice peut facilement être réalisé pour le rappel et d’autres métriques d’évaluation.

X_train, y_train, X_test, y_test sont disponibles dans votre espace de travail. pandas sous pd, numpy sous np et sklearn sont également disponibles. precision_score() et recall_score() de sklearn.metrics sont disponibles, ainsi que KFold() et cross_val_score() de sklearn.model_selection.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

Configurez une validation croisée K-Fold avec quatre partitions à l’aide de n_splits et assignez-la à k-fold.
Créez un classificateur d’arbre de décision.
Utilisez k_fold pour exécuter la validation croisée et évaluez la précision et le rappel de votre modèle d’arbre de décision pour la valeur de max_depth fournie.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Iterate over different levels of max depth and set up k-fold
for max_depth_val in [3, 5, 10]:
  k_fold = ____(____ = 4, random_state = 0, shuffle = True)
  clf = ____(____ = max_depth_val)
  print("Evaluating Decision Tree for max_depth = %s" %(max_depth_val))
  y_pred = clf.fit(____, ____).predict(____) 
  
  # Calculate precision for cross validation and test
  cv_precision = ____(
    ____, X_train, y_train, cv = k_fold, scoring = 'precision_weighted')
  precision = ____(y_test, y_pred, average = 'weighted')
  print("Cross validation Precision: %s" %(cv_precision))
  print("Test Precision: %s" %(precision))

Modifier et exécuter le code

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

IntermédiaireNiveau de compétence

5.0+

Commencer le cours gratuitement

Il y a de fortes chances que vous soyez sur cette page parce que vous avez cliqué sur un lien. Dans ce chapitre, vous découvrirez pourquoi les taux de clics (CTR) sont essentiels à la publicité ciblée, comment effectuer des manipulations basiques de DataFrame, et comment utiliser des modèles de Machine Learning pour prédire le CTR.

Exercise 1: Introduction aux taux de clics Exercise 2: Premiers pas Exercise 3: Exploration des variables Exercise 4: Première évaluation des données Exercise 5: Aperçu des modèles de Machine Learning Exercise 6: Régression logistique pour le cancer du sein Exercise 7: Régression logistique pour des images Exercise 8: Un deuxième modèle jouet Exercise 9: Prédire le CTR avec des arbres de décision Exercise 10: Mise en œuvre du modèle Exercise 11: Un premier modèle de CTR Exercise 12: Au-delà de la simple exactitude

Ce chapitre pose les bases de l’analyse exploratoire des données (EDA). À l’aide d’un jeu de données d’exemple, vous utiliserez la bibliothèque pandas pour examiner les colonnes et les types, explorer les données manquantes et utiliser le hashing pour réaliser de l’ingénierie de features à partir de variables catégorielles. Autant d’étapes clés pour analyser les features et améliorer la précision des prédictions de CTR.

Exercise 1: Analyse exploratoire des données Exercise 2: Un premier aperçu Exercise 3: Vérifier les valeurs manquantes Exercise 4: Distributions selon le CTR Exercise 5: Ingénierie des caractéristiques Exercise 6: Analyser des colonnes datetime Exercise 7: Convertir des variables catégorielles Exercise 8: Créer de nouvelles features Exercise 9: Standardiser les caractéristiques Exercise 10: Normalisation logarithmique Exercise 11: Comprendre la standardisation Exercise 12: Standard scaling

Passons à la vitesse supérieure. Découvrez comment utiliser des mesures de performance des modèles, comme la précision et le rappel, pour répondre à des questions concrètes, par exemple évaluer le ROI des dépenses publicitaires. Vous verrez aussi comment améliorer ces métriques d’évaluation grâce aux méthodes d’ensemble et au réglage des hyperparamètres.

Exercise 1: Applications de l’évaluation des métriques Exercise 2: Quatre catégories de résultats Exercise 3: Évaluer quatre catégories Exercise 4: ROI des dépenses publicitaires Exercise 5: Évaluation du modèle Exercise 6: Précision et rappel Exercise 7: Référence de base Exercise 8: Comparaison de classifieurs Exercise 9: Ajuster les modèles Exercise 10: Régularisation Exercise 11: Validation croisée Exercise 12: Sélection de modèle

Exercice en cours

Exercise 13: Ensembles et réglage des hyperparamètres Exercise 14: Comprendre l’ajustement des hyperparamètres Exercise 15: Forêts aléatoires Exercise 16: Recherche par grille

La rentabilité de vos campagnes peut être fortement impactée par leur CTR. Dans ce chapitre, vous apprendrez comment le Deep Learning peut aider à réduire ce risque. Vous vous concentrerez sur les perceptrons multicouches (MLP) et les réseaux de neurones, et verrez comment ils permettent de capturer des relations complexes entre variables pour prédire le CTR avec plus de précision. Enfin, vous apprendrez à appliquer les bases du réglage des hyperparamètres et de la régularisation aux modèles de classification.

Exercise 1: Introduction au deep learning Exercise 2: Comprendre les MLP Exercise 3: Modèle de départ Exercise 4: MLP pour le CTR Exercise 5: Ajustement des hyperparamètres en deep learning Exercise 6: Ajustement des hyperparamètres dans les MLP Exercise 7: Faire varier les hyperparamètres Exercise 8: Recherche par grille pour MLP Exercise 9: Évaluation du modèle Exercise 10: Score F-bêta Exercise 11: Faible précision et AUC élevée Exercise 12: Précision, ROI et AUC Exercise 13: Revue et comparaison des modèles Exercise 14: Mise en jambe : comparaison de modèles Exercise 15: Évaluer la précision et le ROI Exercise 16: Score global Exercise 17: Vidéo de synthèse