Pickles

Il est enfin temps de mettre votre premier modèle en production. Il s’agit d’un classifieur random forest que vous utiliserez comme référence, pendant que vous travaillez encore à développer une meilleure alternative. Vous avez accès à la séparation entraînement/test avec leurs noms usuels : X_train, X_test, y_train et y_test, ainsi qu’aux modules RandomForestClassifier() et pickle, dont vous aurez besoin des méthodes .load() et .dump() pour cet exercice.

Cet exercice fait partie du cours

<cours>Concevoir des workflows de Machine Learning en Python</cours>

Instructions de l’exercice

Entraînez un classifieur random forest sur les données. Fixez la graine aléatoire à 42 pour garantir la reproductibilité de vos résultats.
Écrivez le modèle dans un fichier avec pickle. Ouvrez le fichier de destination en utilisant la syntaxe with open(____) as ____.
Chargez maintenant le modèle depuis le fichier dans une autre variable, clf_from_file.
Stockez les prédictions du modèle chargé dans une variable preds.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Fit a random forest to the training set
clf = ____(____=42).____(
  X_train, y_train)

# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
    pickle.____(clf, file=file)

# Now load the model from file in the production environment
with ____ as file:
    clf_from_file = pickle.____(file)

# Predict the labels of the test dataset
preds = clf_from_file.____

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Concevoir des workflows de Machine Learning en Python</cours>

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous reverrez les bases d’un workflow d’apprentissage supervisé, avec l’ajustement, le réglage et la sélection des modèles, l’ingénierie et la sélection de caractéristiques, ainsi que les techniques de découpage des données. Vous comprendrez comment ces étapes d’un workflow dépendent les unes des autres, et verrez comment elles peuvent toutes contribuer à, ou au contraire lutter contre le surapprentissage : le pire ennemi du data scientist. À la fin du chapitre, vous serez déjà à l’aise avec l’apprentissage supervisé et prêt à aborder des notions plus avancées dans les chapitres suivants.

Exercise 1: Pipelines de supervised learning Exercise 2: Ingénierie des variables Exercise 3: Votre première pipeline Exercise 4: Complexité du modèle et surapprentissage Exercise 5: Recherche en grille avec validation croisée pour la complexité du modèle Exercise 6: Nombre d’arbres et estimateurs Exercise 7: Ingénierie des caractéristiques et surapprentissage Exercise 8: Encodages catégoriels Exercise 9: Transformations de variables Exercise 10: Tout rassembler

Au chapitre précédent, vous avez perfectionné votre maîtrise des workflows d’apprentissage supervisé standard. Dans ce chapitre, vous examinerez de manière critique la façon d’intégrer l’expertise métier dans l’apprentissage supervisé. Cela passe par l’identification de la bonne unité d’analyse, ce qui peut nécessiter de l’ingénierie de caractéristiques à partir de plusieurs sources de données, par le processus parfois imparfait d’étiquetage des exemples, et par la définition d’une fonction de perte qui reflète la vraie valeur métier des erreurs commises par votre modèle de Machine Learning.

Exercise 1: Fusion de données Exercise 2: La source ou la destination est-elle en cause ?Exercise 3: Feature engineering sur des données groupées Exercise 4: Étiquettes imparfaites Exercise 5: Transformer une heuristique en classifieur Exercise 6: Combiner des heuristiques Exercise 7: Gérer le bruit dans les labels Exercise 8: Fonctions de perte – Partie I Exercise 9: Rappel des métriques de performance Exercise 10: Analyse des coûts en conditions réelles Exercise 11: Calculs avec la matrice de confusion Exercise 12: Fonctions de perte – Partie II Exercise 13: Seuil par défaut Exercise 14: Optimiser le seuil Exercise 15: Tout rassembler

Au chapitre précédent, vous avez intégré différents retours d’experts dans votre workflow et les avez évalués en cohérence avec la valeur métier. Il est maintenant temps de pratiquer les compétences nécessaires pour industrialiser votre modèle et garantir qu’il continue de bien performer ensuite, en l’améliorant de manière itérative. Vous apprendrez aussi à diagnostiquer un décalage de distribution des données (dataset shift) et à atténuer l’effet qu’un environnement changeant peut avoir sur la précision de votre modèle.

Exercise 1: Des workflows aux pipelines Exercise 2: Votre première pipeline — encore !Exercise 3: Évaluateurs personnalisés dans les pipelines Exercise 4: Déploiement de modèles Exercise 5: Pickles

Exercice actuel

Exercise 6: Transformateurs de fonctions personnalisées dans des pipelines Exercise 7: Itérer sans surapprentissage Exercise 8: Mettre le champion au défi Exercise 9: Statistiques de validation croisée Exercise 10: Déplacement de données Exercise 11: Ajuster la taille de la fenêtre Exercise 12: Mettre toutes les pièces ensemble

Dans les chapitres précédents, vous avez bâti une base solide en apprentissage supervisé, y compris le déploiement des modèles en production, mais en supposant toujours la disponibilité d’un jeu de données étiqueté pour votre analyse. Dans ce chapitre, vous relevez le défi de modéliser des données sans labels, ou avec très peu de labels. Vous explorerez la détection d’anomalies, une forme de modélisation non supervisée, ainsi que l’apprentissage fondé sur la distance, où des hypothèses sur la similarité entre deux exemples peuvent se substituer aux labels pour vous aider à atteindre une précision comparable à celle d’un workflow supervisé. À l’issue de ce chapitre, vous vous distinguerez nettement en sachant avec assurance quels outils utiliser pour adapter votre workflow et surmonter des défis courants du monde réel.

Exercise 1: Détection d’anomalies Exercise 2: Un outlier simple Exercise 3: Contamination LoF Exercise 4: Détection de nouveauté Exercise 5: Une nouveauté simple Exercise 6: Trois détecteurs de nouveauté Exercise 7: Contamination : retour Exercise 8: Apprentissage basé sur la distance Exercise 9: Trouver le plus proche voisin Exercise 10: Toutes les métriques ne sont pas d’accord Exercise 11: Données non structurées Exercise 12: Levenshtein restreint Exercise 13: Tout rassembler Exercise 14: Remarques finales