LoslegenKostenlos loslegen

Verarbeiten großer Mengen von Twitter-Daten

Manchmal erreichen die zu verarbeitenden Daten eine Größe, die der Speicher eines Computers nicht mehr bewältigen kann. Das ist ein häufiges Problem von Data Scientists. Eine Lösung besteht darin, eine ganze Datenquelle Stück für Stück zu bearbeiten, anstatt alles auf einmal zu machen.

In dieser Aufgabe wirst du genau das tun. Du verarbeitest eine große csv-Datei mit Twitter-Daten auf dieselbe Weise, wie du es in 'tweets.csv' in Und jetzt alles zusammen-Aufgaben des Vorkurses getan hast, aber dieses Mal arbeitest du in Blöcken von jeweils 10 Einträgen.

Wenn du lernen möchtest, wie du auf Twitter-Daten zugreifen kannst, um sie in deinem eigenen System zu verarbeiten, lies Teil 2 des DataCamp-Kurses über das Importieren von Daten in Python.

Das pandas-Paket wurde als pd importiert und die Datei 'tweets.csv' liegt in deinem aktuellen Verzeichnis für dich bereit.

Sei dir bewusst, dass es sich um echte Daten von Twitter handelt und daher immer das Risiko besteht, dass sie Schimpfwörter oder andere anstößige Inhalte enthalten (in dieser Aufgabe und allen folgenden Aufgaben, die ebenfalls echte Twitter-Daten verwenden).

Diese Übung ist Teil des Kurses

Python Toolbox

Kurs anzeigen

Anleitung zur Übung

  • Initialisiere ein leeres Dictionary counts_dict für die Speicherung der Ergebnisse der Verarbeitung der Twitter-Daten.
  • Iteriere mit Hilfe einer for-Schleife über die Datei 'tweets.csv'. Verwende die Schleifenvariable chunk und iteriere über den Aufruf von pd.read_csv() mit einer chunksize von 10.
  • In der inneren Schleife iterierst du mit Hilfe einer for-Schleife über die Spalte 'lang' in chunk. Verwende die Schleifenvariable entry.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)
Code bearbeiten und ausführen