ComenzarEmpieza gratis

Modelo de duración del vuelo: Etapas del oleoducto

Vas a crear las etapas para la canalización del modelo de duración de los vuelos. Los utilizarás en el siguiente ejercicio para construir una canalización y crear un modelo de regresión.

Las clases StringIndexer, OneHotEncoder, VectorAssembler y LinearRegression ya están importadas.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un indexador para convertir la columna "org" en una columna indexada llamada "org_idx".
  • Crea un codificador de un solo paso para convertir las columnas 'orgidx' y 'dow' en columnas de variables ficticias llamadas 'orgdummy' y 'dow_dummy'.
  • Crea un ensamblador que combine la columna "km" con las dos columnas de variables ficticias. La columna de salida debe llamarse "características".
  • Crea un objeto de regresión lineal para predecir la duración del vuelo.

Puede que te resulte útil volver a ver las diapositivas de las lecciones en el panel Diapositivas, junto al terminal IPython.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Editar y ejecutar código