Modelo de duración del vuelo: Etapas del proceso
Vas a crear las etapas para el modelo de canalización de la duración de los vuelos. Los utilizarás en el siguiente ejercicio para crear un proceso y un modelo de regresión.
Las clases StringIndexer
, OneHotEncoder
, VectorAssembler
y LinearRegression
ya están importadas.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Crea un indexador para convertir la columna «org» en una columna indexada llamada «org_idx».
- Crea un codificador one-hot para convertir las columnas «orgidx» y «dow» en columnas de variables ficticias llamadas «orgdummy» y «dow_dummy».
- Crea un ensamblador que combine la columna «km» con las dos columnas de variables ficticias. La columna de salida debe llamarse «características».
- Crea un objeto de regresión lineal para predecir la duración del vuelo.
Puede que te resulte útil volver a ver las diapositivas de las lecciones en el panel Slides, junto al terminal IPython.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)