CommencerCommencer gratuitement

Traitement de grandes quantités de données Twitter

Parfois, les données que nous devons traiter atteignent une taille trop importante pour la mémoire d'un ordinateur. Il s'agit d'un problème courant auquel sont confrontés les scientifiques des données. Une solution consiste à traiter une source de données entière, morceau par morceau, au lieu de la traiter en une seule fois.

C'est ce que vous allez faire dans cet exercice. Vous traiterez un grand fichier csv de données Twitter de la même manière que vous avez traité 'tweets.csv' dans la rubrique Rassembler tout cela du cours précédent, mais cette fois-ci, en travaillant sur le fichier par tranches de 10 entrées à la fois.

Si vous souhaitez apprendre à accéder aux données de Twitter afin de pouvoir les exploiter sur votre propre système, reportez-vous à la partie 2 du cours DataCamp sur l'importation de données en Python.

Le paquet pandas a été importé sous le nom de pd et le fichier 'tweets.csv' se trouve dans votre répertoire courant pour votre usage.

Sachez qu'il s'agit de données réelles provenant de Twitter et qu'il y a donc toujours un risque qu'elles contiennent des jurons ou d'autres contenus offensants (dans cet exercice et dans tous les exercices suivants qui utilisent également des données réelles de Twitter).

Cet exercice fait partie du cours

Boîte à outils Python

Afficher le cours

Instructions

  • Initialiser un dictionnaire vide counts_dict pour stocker les résultats du traitement des données Twitter.
  • Parcourez le fichier 'tweets.csv' à l'aide d'une boucle for. Utilisez la variable de boucle chunk et itérez sur l'appel à pd.read_csv() avec un chunksize de 10.
  • Dans la boucle interne, itérer sur la colonne 'lang' dans chunk en utilisant une boucle for. Utilisez la variable de boucle entry.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)
Modifier et exécuter le code