Verarbeiten großer Mengen von Twitter-Daten

Manchmal erreichen die zu verarbeitenden Daten eine Größe, die der Speicher eines Computers nicht mehr bewältigen kann. Das ist ein häufiges Problem von Data Scientists. Eine Lösung besteht darin, eine Datenquelle in kleineren Blöcken zu bearbeiten, anstatt im Ganzen.

In dieser Aufgabe wirst du genau das tun. Du verarbeitest eine große csv-Datei mit Twitter-Daten auf dieselbe Weise, wie du es in 'tweets.csv' in der praktischen Anwendung des Vorkurses getan hast. Dieses Mal arbeitest du jedoch in Blöcken von jeweils 10 Einträgen.

Wenn du lernen möchtest, wie du auf Twitter-Daten zugreifen kannst, um sie in deinem eigenen System zu verarbeiten, lies Teil 2 des DataCamp-Kurses über das Importieren von Daten in Python.

Das pandas-Paket wurde als pd importiert und die Datei 'tweets.csv' liegt in deinem aktuellen Verzeichnis für dich bereit.

Mach dir bewusst, dass es sich um echte Daten von Twitter handelt und daher immer das Risiko besteht, dass sie Schimpfwörter oder andere anstößige Inhalte enthalten (in dieser Aufgabe und allen folgenden Aufgaben, die ebenfalls echte Twitter-Daten verwenden).

Diese Übung ist Teil des Kurses

<Kurs>Python Toolbox</Kurs>

Kurs ansehen

Übungsanweisungen

Initialisiere ein leeres Dictionary counts_dict zum Speichern der Verarbeitungsergebnisse der Twitter-Daten.
Iteriere mit Hilfe einer for-Schleife über die Datei 'tweets.csv'. Verwende die Schleifenvariable chunk und iteriere über den Aufruf von pd.read_csv() mit einer chunksize von 10.
In der inneren Schleife iterierst du mit Hilfe einer for-Schleife über die Spalte 'lang' in chunk. Verwende die Schleifenvariable entry.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)

Code bearbeiten und ausführen