ComenzarEmpieza gratis

Eliminar columnas y filas

Anteriormente has cargado datos de vuelos de una aerolínea desde un archivo CSV. Vas a desarrollar un modelo que prediga si un vuelo determinado se retrasará o no.

En este ejercicio, debes recortar esos datos de la siguiente manera:

  1. eliminar una columna que no aporta información y
  2. eliminando las filas que no contienen información sobre si un vuelo se retrasó o no.

Los datos están disponibles en flights.

Nota: Puede resultarte útil revisar las diapositivas de las lecciones en el panel Slides (Diapositivas) junto al terminal IPython.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Elimina la columna « flight ».
  • Averigua cuántos registros tienen valores faltantes en la columna « delay ».
  • Elimina los registros con valores faltantes en la columna « delay ».
  • Elimina los registros con valores faltantes en cualquier columna y obtén el número de filas restantes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Editar y ejecutar código