Créer un bag à partir de texte sauvegardé
Cette fois, votre collègue a enregistré les avis dans des fichiers texte. Il y a plusieurs fichiers et plusieurs avis dans chaque fichier. Chaque avis se trouve sur une ligne distincte du fichier texte.
Vous souhaitez les charger paresseusement avec Dask afin de pouvoir utiliser le traitement parallèle pour les analyser plus rapidement.
dask.bag a été importé pour vous sous le nom db.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Utilisez la fonction
read_text()pour charger tous les fichiers.txtdu répertoiredata/tripadvisor_hotel_reviews. - Comptez le nombre d’avis dans le bag.
- Utilisez la méthode
.compute()du bag pour afficher la réponse.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load in all the .txt files inside data/tripadvisor_hotel_reviews
review_bag = ____
# Count the number of reviews in the bag
review_count = review_bag.____
# Compute and print the answer
print(____)