Crear un bag a partir de texto guardado
Esta vez tu colega ha guardado las reseñas en varios archivos de texto. Hay múltiples archivos y varias reseñas en cada archivo. Cada reseña está en una línea distinta del archivo de texto.
Quieres cargarlas en Dask de forma perezosa para poder usar procesamiento en paralelo y analizarlas más rápido.
dask.bag ya se ha importado como db.
Este ejercicio forma parte del curso
Programación paralela con Dask en Python
Instrucciones del ejercicio
- Usa la función
read_text()para cargar todos los archivos.txtdentro del directoriodata/tripadvisor_hotel_reviews. - Cuenta el número de reseñas en el bag.
- Usa el método
.compute()del bag para imprimir la respuesta.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load in all the .txt files inside data/tripadvisor_hotel_reviews
review_bag = ____
# Count the number of reviews in the bag
review_count = review_bag.____
# Compute and print the answer
print(____)