Grote hoeveelheden Twitterdata verwerken
Soms is de data die we moeten verwerken zo groot dat het niet meer in het geheugen van een computer past. Dit is een veelvoorkomend probleem voor data scientists. Een oplossing is om een volledige databron stuk voor stuk (in chunks) te verwerken, in plaats van alles in één keer.
In deze oefening ga je precies dat doen. Je verwerkt een grote csv met Twitterdata op dezelfde manier als je 'tweets.csv' hebt verwerkt in de Bringing it all together-oefeningen van de eerdere cursus, maar nu werk je in stukken van 10 entries per keer.
Als je wilt leren hoe je toegang krijgt tot Twitterdata zodat je er zelf op je eigen systeem mee kunt werken, kijk dan naar Part 2 van de DataCamp-cursus Importing Data in Python.
Het pandas-pakket is geïmporteerd als pd en het bestand 'tweets.csv' staat in je huidige map zodat je het kunt gebruiken.
Houd er rekening mee dat dit echte data van Twitter is en dat er daarom altijd een risico bestaat dat het scheldwoorden of andere aanstootgevende inhoud bevat (in deze oefening en eventuele volgende oefeningen die ook echte Twitterdata gebruiken).
Deze oefening maakt deel uit van de cursus
Python-gereedschapskist
Oefeninstructies
- Initialiseer een lege dictionary
counts_dictom de resultaten van het verwerken van de Twitterdata op te slaan. - Itereer over het bestand
'tweets.csv'met eenfor-lus. Gebruik de lusvariabelechunken itereer over de aanroep vanpd.read_csv()met eenchunksizevan 10. - Itereer in de binnenste lus over de kolom
'lang'inchunkmet eenfor-lus. Gebruik de lusvariabeleentry.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize an empty dictionary: counts_dict
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Print the populated dictionary
print(counts_dict)