Einen Bag aus gespeichertem Text erstellen
Diesmal hat deine Kollegin/dein Kollege die Rezensionen in einigen Textdateien gespeichert. Es gibt mehrere Dateien und mehrere Rezensionen pro Datei. Jede Rezension steht in der Textdatei in einer eigenen Zeile.
Du möchtest sie mit Dask lazy laden, damit du die Analyse mit Parallelverarbeitung schneller durchführen kannst.
dask.bag wurde für dich als db importiert.
Diese Übung ist Teil des Kurses
Parallele Programmierung mit Dask in Python
Anleitung zur Übung
- Verwende die Funktion
read_text(), um alle.txt-Dateien im Verzeichnisdata/tripadvisor_hotel_reviewszu laden. - Zähle die Anzahl der Rezensionen im Bag.
- Verwende die
.compute()-Methode des Bags, um die Antwort auszugeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load in all the .txt files inside data/tripadvisor_hotel_reviews
review_bag = ____
# Count the number of reviews in the bag
review_count = review_bag.____
# Compute and print the answer
print(____)