Este ejercicio forma parte del curso
Spark es un marco para trabajar con Big Data. En este capítulo cubrirás algunos antecedentes sobre Spark y Machine learning. A continuación, descubrirás cómo conectarte a Spark utilizando Python y cargar datos CSV.
Ahora que ya estás familiarizado con la introducción de datos en Spark, pasarás a construir dos tipos de modelos de clasificación: Árboles de decisión y regresión logística. También conocerás algunos enfoques para la preparación de datos.
Ejercicio actual
A continuación aprenderás a crear modelos de Regresión Lineal. También descubrirás cómo aumentar tus datos mediante la ingeniería de nuevos predictores, así como un enfoque sólido para seleccionar sólo los predictores más relevantes.
Por último, aprenderás a hacer que tus modelos sean más eficaces. Descubrirás cómo utilizar canalizaciones para que tu código sea más claro y fácil de mantener. Luego utilizarás la validación cruzada para probar mejor tus modelos y seleccionar buenos parámetros de modelo. Por último, te adentrarás en dos tipos de modelo de conjunto.