Tout rassembler

Vous venez de rejoindre une start-up de détection d’arythmies et souhaitez entraîner un modèle sur le jeu de données d’arythmies arrh. Vous avez remarqué que les forêts aléatoires remportent souvent des compétitions Kaggle ; vous voulez donc les essayer avec une profondeur maximale de 2, 5 ou 10 via une recherche sur grille. Vous observez aussi que la dimension du jeu de données est assez élevée et souhaitez évaluer l’effet d’une méthode de sélection de variables.

Pour éviter tout surapprentissage par erreur, vous avez déjà séparé vos données. Vous utiliserez X_train et y_train pour la recherche sur grille, et X_test et y_test pour décider si la sélection de variables aide. Les quatre plis de données sont déjà chargés dans votre environnement. Vous avez également accès à GridSearchCV(), train_test_split(), SelectKBest(), chi2() et à RandomForestClassifier sous le nom rfc.

Cet exercice fait partie du cours

Concevoir des workflows de Machine Learning en Python

Afficher le cours

Instructions

Utilisez une recherche sur grille pour tester une profondeur maximale de 2, 5 et 10 pour RandomForestClassifier et enregistrez la meilleure configuration de paramètres.
Réentraîner ensuite l’estimateur en utilisant le meilleur nombre d’arbres déduit ci‑dessus.
Appliquez le sélecteur de variables SelectKBest avec la fonction de score chi2 et réentraînez le classifieur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Find the best value for max_depth among values 2, 5 and 10
grid_search = GridSearchCV(
  ____(random_state=1), param_grid=____)
best_value = grid_search.____(
  ____, ____).best_params_['max_depth']

# Using the best value from above, fit a random forest
clf = rfc(
  random_state=1, ____=best_value).____(X_train, y_train)

# Apply SelectKBest with chi2 and pick top 100 features
vt = SelectKBest(____, k=____).____(X_train, y_train)

# Create a new dataset only containing the selected features
X_train_reduced = ____.transform(____)

Modifier et exécuter le code

Concevoir des workflows de Machine Learning en Python

AvancéNiveau de compétence

4.8+

74 reviews

Dans les chapitres précédents, vous avez bâti une base solide en apprentissage supervisé, y compris le déploiement des modèles en production, mais en supposant toujours la disponibilité d’un jeu de données étiqueté pour votre analyse. Dans ce chapitre, vous relevez le défi de modéliser des données sans labels, ou avec très peu de labels. Vous explorerez la détection d’anomalies, une forme de modélisation non supervisée, ainsi que l’apprentissage fondé sur la distance, où des hypothèses sur la similarité entre deux exemples peuvent se substituer aux labels pour vous aider à atteindre une précision comparable à celle d’un workflow supervisé. À l’issue de ce chapitre, vous vous distinguerez nettement en sachant avec assurance quels outils utiliser pour adapter votre workflow et surmonter des défis courants du monde réel.

Exercise 1: Détection d’anomalies Exercise 2: Un outlier simple Exercise 3: Contamination LoF Exercise 4: Détection de nouveauté Exercise 5: Une nouveauté simple Exercise 6: Trois détecteurs de nouveauté Exercise 7: Contamination : retour Exercise 8: Apprentissage basé sur la distance Exercise 9: Trouver le plus proche voisin Exercise 10: Toutes les métriques ne sont pas d’accord Exercise 11: Données non structurées Exercise 12: Levenshtein restreint Exercise 13: Tout rassembler Exercise 14: Remarques finales