Modelo de duración del vuelo: Etapas del oleoducto
Vas a crear las etapas para la canalización del modelo de duración de los vuelos. Los utilizarás en el siguiente ejercicio para construir una canalización y crear un modelo de regresión.
Las clases StringIndexer, OneHotEncoder, VectorAssembler y LinearRegression ya están importadas.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Crea un indexador para convertir la columna "org" en una columna indexada llamada "org_idx".
- Crea un codificador de un solo paso para convertir las columnas 'orgidx' y 'dow' en columnas de variables ficticias llamadas 'orgdummy' y 'dow_dummy'.
- Crea un ensamblador que combine la columna "km" con las dos columnas de variables ficticias. La columna de salida debe llamarse "características".
- Crea un objeto de regresión lineal para predecir la duración del vuelo.
Puede que te resulte útil volver a ver las diapositivas de las lecciones en el panel Diapositivas, junto al terminal IPython.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)