Strings optellen en getallen aan elkaar plakken
In de vorige oefening ontdekte je dat category het juiste gegevenstype is voor user_type en heb je dit omgezet om relevante statistische samenvattingen te kunnen maken die inzicht geven in de verdeling van user_type.
Een ander veelvoorkomend probleem met gegevenstypen is dat wat numerieke waarden zouden moeten zijn als strings worden geïmporteerd. Wiskundige bewerkingen zoals optellen en vermenigvuldigen leiden dan tot string-concatenatie in plaats van numerieke uitkomsten.
In deze oefening zet je de stringkolom duration om naar het type int. Daarvóór moet je echter eerst "minutes" uit de kolom verwijderen, zodat pandas deze als numeriek leest. Het pakket pandas is geïmporteerd als pd.
Deze oefening maakt deel uit van de cursus
Data opschonen in Python
Oefeninstructies
- Gebruik de methode
.strip()om"minutes"uitdurationte verwijderen en sla het op in de kolomduration_trim. - Zet
duration_trimom naarinten sla het op in de kolomduration_time. - Schrijf een
assert-statement dat controleert of de datatype vanduration_timenuintis. - Print de gemiddelde ritduur.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].____.____()
# Convert duration to integer
ride_sharing['duration_time'] = ____
# Write an assert statement making sure of conversion
assert ride_sharing['____'].____ == '____'
# Print formed columns and calculate average ride duration
print(ride_sharing[['duration','duration_trim','duration_time']])
print(____)