Verarbeiten großer Mengen von Twitter-Daten
Manchmal erreichen die zu verarbeitenden Daten eine Größe, die der Speicher eines Computers nicht mehr bewältigen kann. Das ist ein häufiges Problem von Data Scientists. Eine Lösung besteht darin, eine ganze Datenquelle Stück für Stück zu bearbeiten, anstatt alles auf einmal zu machen.
In dieser Aufgabe wirst du genau das tun. Du verarbeitest eine große csv-Datei mit Twitter-Daten auf dieselbe Weise, wie du es in 'tweets.csv'
in Und jetzt alles zusammen-Aufgaben des Vorkurses getan hast, aber dieses Mal arbeitest du in Blöcken von jeweils 10 Einträgen.
Wenn du lernen möchtest, wie du auf Twitter-Daten zugreifen kannst, um sie in deinem eigenen System zu verarbeiten, lies Teil 2 des DataCamp-Kurses über das Importieren von Daten in Python.
Das pandas-Paket wurde als pd
importiert und die Datei 'tweets.csv'
liegt in deinem aktuellen Verzeichnis für dich bereit.
Sei dir bewusst, dass es sich um echte Daten von Twitter handelt und daher immer das Risiko besteht, dass sie Schimpfwörter oder andere anstößige Inhalte enthalten (in dieser Aufgabe und allen folgenden Aufgaben, die ebenfalls echte Twitter-Daten verwenden).
Diese Übung ist Teil des Kurses
Python Toolbox
Anleitung zur Übung
- Initialisiere ein leeres Dictionary
counts_dict
für die Speicherung der Ergebnisse der Verarbeitung der Twitter-Daten. - Iteriere mit Hilfe einer
for
-Schleife über die Datei'tweets.csv'
. Verwende die Schleifenvariablechunk
und iteriere über den Aufruf vonpd.read_csv()
mit einerchunksize
von 10. - In der inneren Schleife iterierst du mit Hilfe einer
for
-Schleife über die Spalte'lang'
inchunk
. Verwende die Schleifenvariableentry
.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Initialize an empty dictionary: counts_dict
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Print the populated dictionary
print(counts_dict)