Traiter de grandes quantités de données Twitter

Il arrive que les données à traiter soient trop volumineuses pour tenir en mémoire. C’est un problème courant pour les data scientists. Une solution consiste à traiter la source de données morceau par morceau (chunk par chunk), plutôt qu’en une seule fois.

Dans cet exercice, vous allez faire exactement cela. Vous allez traiter un gros fichier CSV de données Twitter de la même manière que vous avez traité 'tweets.csv' dans les exercices de Récapitulatif du cours précédent, mais cette fois en travaillant par blocs de 10 lignes à la fois.

Si vous souhaitez apprendre à accéder aux données Twitter pour travailler dessus sur votre propre machine, consultez la Partie 2 du cours DataCamp « Importing Data in Python ».

Le package pandas a été importé sous le nom pd et le fichier 'tweets.csv' est disponible dans votre répertoire courant.

Sachez qu’il s’agit de vraies données Twitter ; elles peuvent donc contenir des grossièretés ou d’autres contenus offensants (dans cet exercice, ainsi que dans tout exercice ultérieur utilisant de vraies données Twitter).

Cet exercice fait partie du cours

<cours>Boîte à outils Python</cours>

Voir le cours

Instructions de l’exercice

Initialisez un dictionnaire vide counts_dict pour stocker les résultats du traitement des données Twitter.
Parcourez le fichier 'tweets.csv' à l’aide d’une boucle for. Utilisez la variable de boucle chunk et itérez sur l’appel à pd.read_csv() avec un chunksize de 10.
Dans la boucle interne, itérez sur la colonne 'lang' de chunk à l’aide d’une boucle for. Utilisez la variable de boucle entry.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)

Modifier et exécuter le code