Aan de slagGa gratis aan de slag

Grote hoeveelheden Twitterdata verwerken

Soms is de data die we moeten verwerken zo groot dat het niet meer in het geheugen van een computer past. Dit is een veelvoorkomend probleem voor data scientists. Een oplossing is om een volledige databron stuk voor stuk (in chunks) te verwerken, in plaats van alles in één keer.

In deze oefening ga je precies dat doen. Je verwerkt een grote csv met Twitterdata op dezelfde manier als je 'tweets.csv' hebt verwerkt in de Bringing it all together-oefeningen van de eerdere cursus, maar nu werk je in stukken van 10 entries per keer.

Als je wilt leren hoe je toegang krijgt tot Twitterdata zodat je er zelf op je eigen systeem mee kunt werken, kijk dan naar Part 2 van de DataCamp-cursus Importing Data in Python.

Het pandas-pakket is geïmporteerd als pd en het bestand 'tweets.csv' staat in je huidige map zodat je het kunt gebruiken.

Houd er rekening mee dat dit echte data van Twitter is en dat er daarom altijd een risico bestaat dat het scheldwoorden of andere aanstootgevende inhoud bevat (in deze oefening en eventuele volgende oefeningen die ook echte Twitterdata gebruiken).

Deze oefening maakt deel uit van de cursus

Python-gereedschapskist

Cursus bekijken

Oefeninstructies

  • Initialiseer een lege dictionary counts_dict om de resultaten van het verwerken van de Twitterdata op te slaan.
  • Itereer over het bestand 'tweets.csv' met een for-lus. Gebruik de lusvariabele chunk en itereer over de aanroep van pd.read_csv() met een chunksize van 10.
  • Itereer in de binnenste lus over de kolom 'lang' in chunk met een for-lus. Gebruik de lusvariabele entry.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)
Code bewerken en uitvoeren