ComenzarEmpieza gratis

Eliminar columnas y filas

Previamente has cargado los datos de vuelo de una aerolínea desde un archivo CSV. Vas a desarrollar un modelo que prediga si un vuelo determinado se retrasará o no.

En este ejercicio tienes que recortar esos datos en:

  1. eliminar una columna poco informativa y
  2. eliminar las filas que no tienen información sobre si un vuelo se retrasó o no.

Los datos están disponibles en flights.

Nota:: Puede que te resulte útil revisar las diapositivas de las lecciones en el panel Diapositivas situado junto a la Cáscara de Python.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Retira la columna flight.
  • Averigua cuántos registros tienen valores perdidos en la columna delay.
  • Elimina los registros con valores perdidos en la columna delay.
  • Elimina los registros con valores perdidos en cualquier columna y obtén el número de filas restantes.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Editar y ejecutar código