Votre première pipeline — encore !

De retour dans la startup d’arythmie, votre revue mensuelle approche et, dans ce cadre, un·e expert·e Python va passer votre code en revue. Vous décidez de faire le ménage en suivant les bonnes pratiques et de remplacer votre script de sélection de caractéristiques et de classification par forêt aléatoire par une pipeline. Vous utilisez un jeu d’entraînement disponible sous X_train et y_train, ainsi que plusieurs modules : RandomForestClassifier, SelectKBest() et f_classif() pour la sélection de caractéristiques, ainsi que GridSearchCV et Pipeline.

Cet exercice fait partie du cours

Concevoir des workflows de Machine Learning en Python

Afficher le cours

Instructions

Créez une pipeline avec le sélecteur de caractéristiques fourni dans l’exemple de code, et un classifieur par forêt aléatoire. Nommez la première étape feature_selection.
Ajoutez deux paires clé-valeur dans params : une pour le nombre de caractéristiques k dans le sélecteur avec les valeurs 10 et 20, et une pour n_estimators dans la forêt avec les valeurs possibles 2 et 5.
Initialisez un objet GridSearchCV avec la pipeline et la grille de paramètres fournies.
Ajustez l’objet aux données et affichez la meilleure combinaison de paramètres.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create pipeline with feature selector and classifier
pipe = ___([
    (___, SelectKBest(f_classif)),
    ('clf', ___(random_state=2))])

# Create a parameter grid
params = {
   'feature_selection__k':___,
    ___:[2, 5]}

# Initialize the grid search object
grid_search = ___(___, ___=params)

# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)

Modifier et exécuter le code

Concevoir des workflows de Machine Learning en Python

AvancéNiveau de compétence

4.8+

74 reviews

Dans les chapitres précédents, vous avez bâti une base solide en apprentissage supervisé, y compris le déploiement des modèles en production, mais en supposant toujours la disponibilité d’un jeu de données étiqueté pour votre analyse. Dans ce chapitre, vous relevez le défi de modéliser des données sans labels, ou avec très peu de labels. Vous explorerez la détection d’anomalies, une forme de modélisation non supervisée, ainsi que l’apprentissage fondé sur la distance, où des hypothèses sur la similarité entre deux exemples peuvent se substituer aux labels pour vous aider à atteindre une précision comparable à celle d’un workflow supervisé. À l’issue de ce chapitre, vous vous distinguerez nettement en sachant avec assurance quels outils utiliser pour adapter votre workflow et surmonter des défis courants du monde réel.

Exercise 1: Détection d’anomalies Exercise 2: Un outlier simple Exercise 3: Contamination LoF Exercise 4: Détection de nouveauté Exercise 5: Une nouveauté simple Exercise 6: Trois détecteurs de nouveauté Exercise 7: Contamination : retour Exercise 8: Apprentissage basé sur la distance Exercise 9: Trouver le plus proche voisin Exercise 10: Toutes les métriques ne sont pas d’accord Exercise 11: Données non structurées Exercise 12: Levenshtein restreint Exercise 13: Tout rassembler Exercise 14: Remarques finales