Aan de slagGa gratis aan de slag

Een bag maken van opgeslagen tekst

Deze keer heeft je collega de reviews in tekstbestanden opgeslagen. Er zijn meerdere bestanden en in elk bestand staan meerdere reviews. Elke review staat op een aparte regel in het tekstbestand.

Je wilt deze lui laden in Dask zodat je parallelle verwerking kunt gebruiken om ze sneller te analyseren.

dask.bag is voor je geïmporteerd als db.

Deze oefening maakt deel uit van de cursus

Parallel programmeren met Dask in Python

Cursus bekijken

Oefeninstructies

  • Gebruik de functie read_text() om alle .txt-bestanden in de map data/tripadvisor_hotel_reviews te laden.
  • Tel het aantal reviews in de bag.
  • Gebruik de .compute()-methode van de bag om het antwoord te printen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load in all the .txt files inside data/tripadvisor_hotel_reviews
review_bag = ____

# Count the number of reviews in the bag
review_count = review_bag.____

# Compute and print the answer
print(____)
Code bewerken en uitvoeren