Pipeline di Machine Learning
Nei prossimi due capitoli percorrerai tutte le fasi della pipeline di machine learning, dall’acquisizione dei dati alla valutazione del modello. Andiamo!
Al centro del modulo pyspark.ml ci sono le classi Transformer ed Estimator. Quasi tutte le altre classi del modulo si comportano in modo simile a queste due classi di base.
Le classi Transformer hanno un metodo .transform() che prende un DataFrame e restituisce un nuovo DataFrame; di solito l’originale con una nuova colonna aggiunta. Per esempio, potresti usare la classe Bucketizer per creare intervalli discreti a partire da una variabile continua oppure la classe PCA per ridurre la dimensionalità del tuo insieme di dati tramite l’analisi delle componenti principali.
Tutte le classi Estimator implementano un metodo .fit(). Questi metodi prendono anch’essi un DataFrame, ma invece di restituire un altro DataFrame restituiscono un oggetto modello. Questo può essere, per esempio, uno StringIndexerModel per includere nei tuoi modelli dati categorici salvati come stringhe, oppure un RandomForestModel che usa l’algoritmo random forest per classificazione o regressione.
Quale delle seguenti affermazioni NON è vera sul machine learning in Spark?
Questo esercizio fa parte del corso
Fondamenti di PySpark
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio