Traiter de grandes quantités de données Twitter

Parfois, les données à traiter atteignent une taille trop grande pour la mémoire d'un ordinateur. C'est un problème courant pour les scientifiques des données. Une solution consiste à traiter la source de données entière par segments successifs plutôt qu'en un seul passage.

Dans cet exercice, vous allez faire exactement cela. Vous traiterez un gros fichier CSV de données Twitter de la même façon que vous avez traité 'tweets.csv' dans les exercices Tout rassembler du cours précédent, mais cette fois en le parcourant par blocs de 10 entrées à la fois.

Si vous souhaitez apprendre à accéder à des données Twitter pour travailler avec elles sur votre propre système, consultez la Partie 2 du cours DataCamp sur l'importation de données en Python.

Le module pandas a été importé sous le nom pd et le fichier 'tweets.csv' se trouve dans votre répertoire courant pour que vous puissiez l'utiliser.

Soyez conscient qu'il s'agit de vraies données provenant de Twitter et qu'il y a donc toujours un risque qu'elles contiennent des grossièretés ou d'autres contenus offensants (dans cet exercice, et dans tout exercice suivant qui utilise également de vraies données Twitter).

Initialisez un dictionnaire vide counts_dict pour stocker les résultats du traitement des données Twitter.
Itérez sur le fichier 'tweets.csv' à l'aide d'une boucle for. Utilisez la variable de boucle chunk et itérez sur l'appel à pd.read_csv() avec un chunksize de 10.
Dans la boucle interne, itérez sur la colonne 'lang' de chunk à l'aide d'une boucle for. Utilisez la variable de boucle entry.

Exercice

Traiter de grandes quantités de données Twitter

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercice

Instructions

Exercice