Aan de slagGa gratis aan de slag

Strings optellen en getallen aan elkaar plakken

In de vorige oefening ontdekte je dat category het juiste gegevenstype is voor user_type en heb je dit omgezet om relevante statistische samenvattingen te kunnen maken die inzicht geven in de verdeling van user_type.

Een ander veelvoorkomend probleem met gegevenstypen is dat wat numerieke waarden zouden moeten zijn als strings worden geïmporteerd. Wiskundige bewerkingen zoals optellen en vermenigvuldigen leiden dan tot string-concatenatie in plaats van numerieke uitkomsten.

In deze oefening zet je de stringkolom duration om naar het type int. Daarvóór moet je echter eerst "minutes" uit de kolom verwijderen, zodat pandas deze als numeriek leest. Het pakket pandas is geïmporteerd als pd.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Cursus bekijken

Oefeninstructies

  • Gebruik de methode .strip() om "minutes" uit duration te verwijderen en sla het op in de kolom duration_trim.
  • Zet duration_trim om naar int en sla het op in de kolom duration_time.
  • Schrijf een assert-statement dat controleert of de datatype van duration_time nu int is.
  • Print de gemiddelde ritduur.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].____.____()

# Convert duration to integer
ride_sharing['duration_time'] = ____

# Write an assert statement making sure of conversion
assert ride_sharing['____'].____ == '____'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(____)
Code bewerken en uitvoeren