ComenzarEmpieza gratis

Canalizaciones de machine learning

En los dos capítulos siguientes recorrerás todas las etapas del proceso de machine learning, desde la obtención de datos hasta la evaluación de modelos. ¡Manos a la obra!

En el núcleo del módulo pyspark.ml se encuentran las clases Transformer y Estimator. Casi todas las demás clases del módulo se comportan de forma similar a estas dos clases básicas.

Transformer tienen un método .transform() que toma un DataFrame y devuelve un nuevo DataFrame; normalmente el original con una nueva columna añadida. Por ejemplo, puedes utilizar la clase Bucketizer para crear intervalos discretos a partir de una característica continua, o la clase PCA para reducir la dimensionalidad de tu conjunto de datos mediante el análisis de componentes principales.

Estimator implementan un método .fit(). Estos métodos también toman un DataFrame, pero en lugar de devolver otro DataFrame devuelven un objeto modelo. Puede ser algo como un StringIndexerModel para incluir datos categóricos guardados como cadenas en tus modelos, o un RandomForestModel que utilice el algoritmo de bosque aleatorio para la clasificación o la regresión.

¿Cuál de las siguientes afirmaciones no es cierta sobre el machine learning en Spark?

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empieza el ejercicio