Kolommen en rijen verwijderen
Eerder heb je vluchtgegevens van luchtvaartmaatschappijen uit een CSV-bestand geladen. Je gaat een model ontwikkelen dat voorspelt of een vlucht vertraging zal hebben of niet.
In deze oefening ga je de gegevens opschonen door:
- een niet-informatieve kolom te verwijderen en
- rijen te verwijderen waarvoor niet bekend is of de vlucht vertraging had.
De gegevens staan in flights.
Opmerking: Het kan handig zijn om de dia's van de lessen nog eens te bekijken in het paneel Slides naast de IPython Shell.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Verwijder de kolom
flight. - Zoek uit hoeveel records ontbrekende waarden hebben in de kolom
delay. - Verwijder records met ontbrekende waarden in de kolom
delay. - Verwijder records met ontbrekende waarden in om het even welke kolom en vraag het aantal overgebleven rijen op.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())