Creare un bag da testo salvato
Questa volta il tuo collega ha salvato le recensioni in alcuni file di testo. Ci sono più file e più recensioni in ciascun file. Ogni recensione è su una riga separata del file di testo.
Vuoi caricarle in Dask in modo lazy, così da poter usare l'elaborazione parallela per analizzarle più velocemente.
dask.bag è già stato importato come db.
Questo esercizio fa parte del corso
Programmazione parallela con Dask in Python
Istruzioni dell'esercizio
- Usa la funzione
read_text()per caricare tutti i file.txtnella directorydata/tripadvisor_hotel_reviews. - Conta il numero di recensioni nel bag.
- Usa il metodo
.compute()del bag per stampare la risposta.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load in all the .txt files inside data/tripadvisor_hotel_reviews
review_bag = ____
# Count the number of reviews in the bag
review_count = review_bag.____
# Compute and print the answer
print(____)