Canalizaciones de machine learning
En los dos capítulos siguientes recorrerás todas las etapas del proceso de machine learning, desde la obtención de datos hasta la evaluación de modelos. ¡Manos a la obra!
En el núcleo del módulo pyspark.ml
se encuentran las clases Transformer
y Estimator
. Casi todas las demás clases del módulo se comportan de forma similar a estas dos clases básicas.
Transformer
tienen un método .transform()
que toma un DataFrame y devuelve un nuevo DataFrame; normalmente el original con una nueva columna añadida. Por ejemplo, puedes utilizar la clase Bucketizer
para crear intervalos discretos a partir de una característica continua, o la clase PCA
para reducir la dimensionalidad de tu conjunto de datos mediante el análisis de componentes principales.
Estimator
implementan un método .fit()
. Estos métodos también toman un DataFrame, pero en lugar de devolver otro DataFrame devuelven un objeto modelo. Puede ser algo como un StringIndexerModel
para incluir datos categóricos guardados como cadenas en tus modelos, o un RandomForestModel
que utilice el algoritmo de bosque aleatorio para la clasificación o la regresión.
¿Cuál de las siguientes afirmaciones no es cierta sobre el machine learning en Spark?
Este ejercicio forma parte del curso
Introducción a PySpark
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
