Rijen verwijderen
Als je weet dat een specifieke kolom cruciaal is voor je analyse, en slechts een klein deel van de rijen mist een waarde in die kolom, is het vaak logisch om die rijen uit de gegevensset te verwijderen.
Tijdens deze cursus is de kolom driver_gender essentieel voor veel van je analyses. Omdat slechts een klein deel van de rijen driver_gender mist, verwijderen we die rijen uit de gegevensset.
Deze oefening maakt deel uit van de cursus
Politie-activiteit analyseren met pandas
Oefeninstructies
- Tel het aantal ontbrekende waarden in elke kolom.
- Verwijder alle rijen waarvoor
driver_genderontbreekt door de kolomnaam door te geven aan de parametersubsetvan.dropna(). - Tel opnieuw het aantal ontbrekende waarden per kolom om te controleren dat geen van de overgebleven rijen
driver_gendermist. - Bekijk de
.shapevan de DataFrame om te zien hoeveel rijen en kolommen er overblijven.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Count the number of missing values in each column
print(ri.isnull().____)
# Drop all rows that are missing 'driver_gender'
ri.____(subset=[____], inplace=True)
# Count the number of missing values in each column (again)
print(ri.____.____)
# Examine the shape of the DataFrame
print(____)