List comprehensions voor data met tijdstempel
Je gaat nu toepassen wat je in dit hoofdstuk hebt geleerd om een eenvoudig data-extractieprobleem op te lossen. In deze oefening maak je ook kennis met een datastructuur: de pandas-Series. We gaan er hier niet diep op in, maar het is goed om te weten dat je deze datastructuur vaak gebruikt bij het analyseren van data uit pandas DataFrames. Je kunt DataFrame-kolommen zien als eendimensionale arrays die Series heten.
In deze oefening gebruik je een list comprehension om de tijd uit Twitterdata met tijdstempels te halen. Het pakket pandas is geïmporteerd als pd en het bestand 'tweets.csv' is als de DataFrame df voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Python-gereedschapskist
Oefeninstructies
- Haal de kolom
'created_at'uitdfen sla het resultaat op intweet_time. Leuk feitje: de geëxtraheerde kolom intweet_timeis hier een Series-datastructuur! - Maak een list comprehension die de tijd uit elke rij in
tweet_timehaalt. Elke rij is een string die een tijdstempel voorstelt, en je haalt de 12e tot en met 19e tekens uit de string om de tijd te extraheren. Gebruikentryals de iteratorvariabele en sla het resultaat op intweet_clock_time. Denk eraan dat Python 0-based indexing gebruikt!
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract the created_at column from df: tweet_time
tweet_time = ____
# Extract the clock time: tweet_clock_time
tweet_clock_time = [____]
# Print the extracted times
print(tweet_clock_time)