Die Daten neu partitionieren

Es gibt ein DataFrame text_df mit den Spalten id, word und chapter. Die ersten 5 Zeilen von text_df werden in der Konsole ausgegeben.

Du kannst anhand des Folgenden feststellen, dass es 12 Kapitel gibt:

text_df.select('chapter')\
       .distinct()\
       .sort('chapter')\
       .show(truncate=False)

Das Ergebnis dieses Befehls wird als Table 1 in der Konsole angezeigt.

Das DataFrame text_df befindet sich derzeit in einer einzelnen Partition. Angenommen, du weißt, dass die nächsten Verarbeitungsschritte die Daten nach Kapiteln gruppieren. Am effizientesten ist die Verarbeitung, wenn jedes Kapitel auf einer einzelnen Maschine bleibt. Um unnötiges Shuffling der Daten zwischen Maschinen zu vermeiden, lass uns das DataFrame so neu partitionieren, dass es eine Partition pro Kapitel hat – mit den Befehlen repartition und getNumPartitions, die im ersten Video dieser Lektion behandelt wurden.

Wenn du dir nicht mehr sicher bist, wie etwas im Video gemacht wurde, schau gerne in die Folien rechts neben der Konsole.

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Anleitung zur Übung

Partitioniere text_df in 12 Partitionen neu, sodass jedes Kapitel seine eigene Partition hat.
Lass dir die Anzahl der Partitionen im neuen DataFrame anzeigen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Repartition text_df into 12 partitions on 'chapter' column
repart_df = text_df.____(____, ____)

# Prove that repart_df has 12 partitions
repart_df.____.____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, wie du in Spark eine SQL-Tabelle erstellst und abfragst. Spark SQL bringt die Ausdrucksstärke von SQL nach Spark. Außerdem lernst du, wie du SQL-Fensterfunktionen in Spark verwendest. Fensterfunktionen führen Berechnungen über Zeilen aus, die mit der aktuellen Zeile in Beziehung stehen. So werden Ergebnisse wesentlich einfacher, die sich nur mit Joins und klassischen Aggregationen schwer ausdrücken lassen. Wir nutzen Fensterfunktionen für laufende Summen, laufende Differenzen und andere Operationen, die in einfachem SQL herausfordernd sind.

Exercise 1: Eine SQL-Tabelle in Spark erstellen und abfragen Exercise 2: Erstelle eine SQL-Tabelle aus einem DataFrame Exercise 3: Spaltennamen einer Tabelle ermitteln Exercise 4: Window-Function-SQL Exercise 5: Laufende Summen mit Window-Function-SQL Exercise 6: Die fehlerhafte Abfrage beheben Exercise 7: Punktnotation und SQL Exercise 8: Aggregation, Schritt für Schritt Exercise 9: Dieselbe Spalte zweimal aggregieren Exercise 10: Aggregat-Punkt-SQL Exercise 11: Window-Funktion von Dot-Notation zu SQL umwandeln

In diesem Kapitel lädst du Text aus natürlicher Sprache. Danach wendest du eine gleitende Fensteranalyse an, um häufige Wortfolgen zu finden.

Exercise 1: Natürlichsprachlichen Text laden Exercise 2: Ein DataFrame aus einer Parquet-Datei laden Exercise 3: Textspalte splitten und explodieren Exercise 4: Verwendung von monotonically_increasing_id()Exercise 5: Gleitfensteranalyse Exercise 6: Kontextfenster-Featuredaten erstellen Exercise 7: Die Daten neu partitionieren

Aktuelle Übung

Exercise 8: Häufige Wortfolgen Exercise 9: Um welchen Datentyp handelt es sich?Exercise 10: Häufige Wortfolgen finden Exercise 11: Eindeutige 5-Tupel in sortierter Reihenfolge Exercise 12: Häufigste 3-Tupel pro Kapitel

In den vorherigen Kapiteln hast du gelernt, wie ausdrucksstark SQL mit Fensterfunktionen ist. Diese Ausdrucksstärke macht es nun wichtig, dass du verstehst, wie man DataFrames und SQL-Tabellen richtig cached. Außerdem ist es wichtig zu wissen, wie du deine Anwendung bewertest. Du lernst, wie du das mit dem Spark UI machst. Außerdem erfährst du eine Best Practice für Logging in Spark. Spark SQL bringt ein weiteres nützliches Werkzeug zur Optimierung von Abfrageleistungen mit: den Ausführungsplan. Du lernst, wie du den Ausführungsplan verwendest, um die Herkunft eines DataFrames zu beurteilen.

Exercise 1: Caching Exercise 2: Caching üben: Teil 1 Exercise 3: Caching üben: die SQL Exercise 4: Caching üben: alles zusammenführen Exercise 5: Tabellen cachen und aus dem Cache entfernen Exercise 6: Die Spark UI Exercise 7: Spark-UI-Registerkarte Storage Exercise 8: Cache in der Spark UI inspizieren Exercise 9: Logging Exercise 10: Logging üben Exercise 11: Logging üben 2 Exercise 12: Abfragepläne Exercise 13: Query-Pläne üben Exercise 14: Übe das Lesen von Abfrageplänen 2

In den vorherigen Kapiteln hast du Werkzeuge erhalten, um Rohtext zu laden, zu tokenisieren und Wortfolgen zu extrahieren. Das ist bereits sehr nützlich für Analysen, aber auch für Machine Learning. Jetzt führst du alles zusammen, indem du logistische Regression zur Textklassifikation einsetzt. Am Ende dieses Kapitels hast du Rohdaten aus natürlicher Sprache geladen und damit einen Textklassifikator trainiert.

Exercise 1: Extract Transform Select Exercise 2: UDF erstellen üben Exercise 3: Mit Array-Spalten üben Exercise 4: Featuredaten für die Klassifikation erstellen Exercise 5: Eine UDF für Vektordaten erstellen Exercise 6: Eine UDF auf Vektordaten anwenden Exercise 7: Text in Vektorformat umwandeln Exercise 8: Textklassifikation Exercise 9: Daten labeln Exercise 10: Teile die Daten Exercise 11: Den Klassifikator trainieren Exercise 12: Vorhersagen und Auswerten Exercise 13: Den Klassifikator auswerten Exercise 14: Testdaten vorhersagen Exercise 15: Rückblick