Pipelines d'apprentissage automatique

Dans les deux chapitres suivants, vous découvrirez chaque étape du pipeline d'apprentissage automatique, de l'acquisition des données à l'évaluation des modèles. Allons-y !

Les classes Transformer et Estimator sont au cœur du module pyspark.ml. Presque toutes les autres classes du module se comportent de manière similaire à ces deux classes de base.

Transformer possèdent une méthode .transform() qui prend un DataFrame et renvoie un nouveau DataFrame, généralement le DataFrame original auquel une nouvelle colonne a été ajoutée. Par exemple, vous pouvez utiliser la classe Bucketizer pour créer des cases discrètes à partir d'une caractéristique continue ou la classe PCA pour réduire la dimensionnalité de votre ensemble de données à l'aide d'une analyse en composantes principales.

Estimator implémentent toutes une méthode .fit(). Ces méthodes prennent également un DataFrame, mais au lieu de renvoyer un autre DataFrame, elles renvoient un objet modèle. Il peut s'agir de quelque chose comme StringIndexerModel pour inclure des données catégorielles enregistrées sous forme de chaînes dans vos modèles, ou RandomForestModel qui utilise l'algorithme de la forêt aléatoire pour la classification ou la régression.

Lequel des énoncés suivants n'est pas vrai à propos de l'apprentissage automatique dans Spark ?

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice