ComenzarEmpieza gratis

Eliminar columnas y filas

Previamente has cargado los datos de vuelo de una aerolínea desde un archivo CSV. Vas a desarrollar un modelo que prediga si un vuelo determinado se retrasará o no.

En este ejercicio tienes que recortar esos datos en:

  1. eliminar una columna poco informativa y
  2. eliminar las filas que no tienen información sobre si un vuelo se retrasó o no.

Los datos están disponibles en flights.

Nota:: Puede resultarte útil revisar las diapositivas de las lecciones en el panel Diapositivas, junto al terminal IPython.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Retira la columna flight.
  • Averigua cuántos registros tienen valores perdidos en la columna delay.
  • Elimina los registros con valores perdidos en la columna delay.
  • Elimina los registros con valores perdidos en cualquier columna y obtén el número de filas restantes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Editar y ejecutar código