Ontbrekende data afhandelen met fill en drop
Oei… Er zitten veel ontbrekende waarden in deze gegevensset! Laten we het opschonen! Verwijder in het geladen CSV-bestand de rijen met null-waarden en laat de resultaten zien!
Onthoud: er is al een SparkSession met de naam spark in je werkruimte!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Verwijder alle rijen met null-waarden in de DataFrame
census_df. - Laat de resulterende DataFrame zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Drop rows with any nulls
census_cleaned = census_df.____
# Show the result
census_cleaned.____