Pipelines d'apprentissage automatique
Dans les deux chapitres suivants, vous découvrirez chaque étape du pipeline d'apprentissage automatique, de l'acquisition des données à l'évaluation des modèles. Allons-y !
Les classes Transformer
et Estimator
sont au cœur du module pyspark.ml
. Presque toutes les autres classes du module se comportent de manière similaire à ces deux classes de base.
Transformer
possèdent une méthode .transform()
qui prend un DataFrame et renvoie un nouveau DataFrame, généralement le DataFrame original auquel une nouvelle colonne a été ajoutée. Par exemple, vous pouvez utiliser la classe Bucketizer
pour créer des cases discrètes à partir d'une caractéristique continue ou la classe PCA
pour réduire la dimensionnalité de votre ensemble de données à l'aide d'une analyse en composantes principales.
Estimator
implémentent toutes une méthode .fit()
. Ces méthodes prennent également un DataFrame, mais au lieu de renvoyer un autre DataFrame, elles renvoient un objet modèle. Il peut s'agir de quelque chose comme StringIndexerModel
pour inclure des données catégorielles enregistrées sous forme de chaînes dans vos modèles, ou RandomForestModel
qui utilise l'algorithme de la forêt aléatoire pour la classification ou la régression.
Lequel des énoncés suivants n'est pas vrai à propos de l'apprentissage automatique dans Spark ?
Cet exercice fait partie du cours
Introduction à PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
