Een bag maken van opgeslagen tekst
Deze keer heeft je collega de reviews in tekstbestanden opgeslagen. Er zijn meerdere bestanden en in elk bestand staan meerdere reviews. Elke review staat op een aparte regel in het tekstbestand.
Je wilt deze lui laden in Dask zodat je parallelle verwerking kunt gebruiken om ze sneller te analyseren.
dask.bag is voor je geïmporteerd als db.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Gebruik de functie
read_text()om alle.txt-bestanden in de mapdata/tripadvisor_hotel_reviewste laden. - Tel het aantal reviews in de bag.
- Gebruik de
.compute()-methode van de bag om het antwoord te printen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load in all the .txt files inside data/tripadvisor_hotel_reviews
review_bag = ____
# Count the number of reviews in the bag
review_count = review_bag.____
# Compute and print the answer
print(____)