ComenzarEmpieza gratis

Modelo de duración del vuelo: Etapas del proceso

Vas a crear las etapas para el modelo de canalización de la duración de los vuelos. Los utilizarás en el siguiente ejercicio para crear un proceso y un modelo de regresión.

Las clases StringIndexer, OneHotEncoder, VectorAssembler y LinearRegression ya están importadas.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un indexador para convertir la columna «org» en una columna indexada llamada «org_idx».
  • Crea un codificador one-hot para convertir las columnas «orgidx» y «dow» en columnas de variables ficticias llamadas «orgdummy» y «dow_dummy».
  • Crea un ensamblador que combine la columna «km» con las dos columnas de variables ficticias. La columna de salida debe llamarse «características».
  • Crea un objeto de regresión lineal para predecir la duración del vuelo.

Puede que te resulte útil volver a ver las diapositivas de las lecciones en el panel Slides, junto al terminal IPython.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Editar y ejecutar código