Extraire de l'information à partir d'un grand volume de données Twitter

Excellent travail pour le découpage du fichier à l'exercice précédent. Vous savez maintenant comment gérer des situations où vous devez traiter un très gros fichier, et c'est une compétence très utile !

C'est bien de pouvoir traiter un fichier en blocs plus petits et plus faciles à gérer, mais réécrire sans cesse le même code pour la même tâche peut devenir fastidieux. Dans cet exercice, vous allez rendre votre code plus réutilisable en plaçant votre travail du dernier exercice dans une définition de fonction.

Le paquet pandas a été importé sous le nom pd et le fichier 'tweets.csv' se trouve dans votre répertoire courant pour que vous puissiez l'utiliser.

Définissez la fonction count_entries() qui comporte 3 paramètres. Le premier paramètre est csv_file pour le nom de fichier, le deuxième est c_size pour la taille des blocs, et le dernier est colname pour le nom de la colonne.
Parcourez le fichier indiqué par csv_file au moyen d'une boucle for. Utilisez la variable de boucle chunk et itérez sur l'appel à pd.read_csv(), en passant c_size à chunksize.
Dans la boucle interne, itérez sur la colonne donnée par colname dans chunk au moyen d'une boucle for. Utilisez la variable de boucle entry.
Appelez la fonction count_entries() en lui passant le nom de fichier 'tweets.csv', la taille des blocs 10 et le nom de la colonne à compter, 'lang'. Affectez le résultat de l'appel à la variable result_counts.

Exercise

Extraire de l'information à partir d'un grand volume de données Twitter

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise