Eliminar columnas y filas
Previamente has cargado los datos de vuelo de una aerolínea desde un archivo CSV. Vas a desarrollar un modelo que prediga si un vuelo determinado se retrasará o no.
En este ejercicio tienes que recortar esos datos en:
- eliminar una columna poco informativa y
- eliminar las filas que no tienen información sobre si un vuelo se retrasó o no.
Los datos están disponibles en flights
.
Nota:: Puede que te resulte útil revisar las diapositivas de las lecciones en el panel Diapositivas situado junto a la Cáscara de Python.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Retira la columna
flight
. - Averigua cuántos registros tienen valores perdidos en la columna
delay
. - Elimina los registros con valores perdidos en la columna
delay
. - Elimina los registros con valores perdidos en cualquier columna y obtén el número de filas restantes.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())