CommencerCommencer gratuitement

Créer un bag à partir de texte sauvegardé

Cette fois, votre collègue a enregistré les avis dans des fichiers texte. Il y a plusieurs fichiers et plusieurs avis dans chaque fichier. Chaque avis se trouve sur une ligne distincte du fichier texte.

Vous souhaitez les charger paresseusement avec Dask afin de pouvoir utiliser le traitement parallèle pour les analyser plus rapidement.

dask.bag a été importé pour vous sous le nom db.

Cet exercice fait partie du cours

Programmation parallèle avec Dask en Python

Afficher le cours

Instructions

  • Utilisez la fonction read_text() pour charger tous les fichiers .txt du répertoire data/tripadvisor_hotel_reviews.
  • Comptez le nombre d’avis dans le bag.
  • Utilisez la méthode .compute() du bag pour afficher la réponse.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load in all the .txt files inside data/tripadvisor_hotel_reviews
review_bag = ____

# Count the number of reviews in the bag
review_count = review_bag.____

# Compute and print the answer
print(____)
Modifier et exécuter le code