Aggregat-Punkt-SQL

Der folgende Code verwendet SQL, um den Wert eines DataFrames namens df zu setzen.

df = spark.sql("""
SELECT *, 
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next 
FROM schedule
""")

Die LEAD-Klausel hat eine entsprechende Funktion in pyspark.sql.functions.
Die Klauseln PARTITION BY und ORDER BY haben jeweils eine entsprechende Funktion in der Punktnotation, die auf dem Window-Objekt aufgerufen wird.
Die folgenden Importe sind verfügbar:
- from pyspark.sql import Window
- from pyspark.sql.functions import lead

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Anleitung zur Übung

Erstelle einen DataFrame namens dot_df, der mit Punktnotation statt SQL dasselbe Ergebnis wie df enthält.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Obtain the identical result using dot notation 
dot_df = df.withColumn('time_next', ____('time', 1)
        .over(____.____('train_id')
        .____('time')))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, wie du in Spark eine SQL-Tabelle erstellst und abfragst. Spark SQL bringt die Ausdrucksstärke von SQL nach Spark. Außerdem lernst du, wie du SQL-Fensterfunktionen in Spark verwendest. Fensterfunktionen führen Berechnungen über Zeilen aus, die mit der aktuellen Zeile in Beziehung stehen. So werden Ergebnisse wesentlich einfacher, die sich nur mit Joins und klassischen Aggregationen schwer ausdrücken lassen. Wir nutzen Fensterfunktionen für laufende Summen, laufende Differenzen und andere Operationen, die in einfachem SQL herausfordernd sind.

Exercise 1: Eine SQL-Tabelle in Spark erstellen und abfragen Exercise 2: Erstelle eine SQL-Tabelle aus einem DataFrame Exercise 3: Spaltennamen einer Tabelle ermitteln Exercise 4: Window-Function-SQL Exercise 5: Laufende Summen mit Window-Function-SQL Exercise 6: Die fehlerhafte Abfrage beheben Exercise 7: Punktnotation und SQL Exercise 8: Aggregation, Schritt für Schritt Exercise 9: Dieselbe Spalte zweimal aggregieren Exercise 10: Aggregat-Punkt-SQL

Aktuelle Übung

Exercise 11: Window-Funktion von Dot-Notation zu SQL umwandeln

In diesem Kapitel lädst du Text aus natürlicher Sprache. Danach wendest du eine gleitende Fensteranalyse an, um häufige Wortfolgen zu finden.

Exercise 1: Natürlichsprachlichen Text laden Exercise 2: Ein DataFrame aus einer Parquet-Datei laden Exercise 3: Textspalte splitten und explodieren Exercise 4: Verwendung von monotonically_increasing_id()Exercise 5: Gleitfensteranalyse Exercise 6: Kontextfenster-Featuredaten erstellen Exercise 7: Die Daten neu partitionieren Exercise 8: Häufige Wortfolgen Exercise 9: Um welchen Datentyp handelt es sich?Exercise 10: Häufige Wortfolgen finden Exercise 11: Eindeutige 5-Tupel in sortierter Reihenfolge Exercise 12: Häufigste 3-Tupel pro Kapitel

In den vorherigen Kapiteln hast du gelernt, wie ausdrucksstark SQL mit Fensterfunktionen ist. Diese Ausdrucksstärke macht es nun wichtig, dass du verstehst, wie man DataFrames und SQL-Tabellen richtig cached. Außerdem ist es wichtig zu wissen, wie du deine Anwendung bewertest. Du lernst, wie du das mit dem Spark UI machst. Außerdem erfährst du eine Best Practice für Logging in Spark. Spark SQL bringt ein weiteres nützliches Werkzeug zur Optimierung von Abfrageleistungen mit: den Ausführungsplan. Du lernst, wie du den Ausführungsplan verwendest, um die Herkunft eines DataFrames zu beurteilen.

Exercise 1: Caching Exercise 2: Caching üben: Teil 1 Exercise 3: Caching üben: die SQL Exercise 4: Caching üben: alles zusammenführen Exercise 5: Tabellen cachen und aus dem Cache entfernen Exercise 6: Die Spark UI Exercise 7: Spark-UI-Registerkarte Storage Exercise 8: Cache in der Spark UI inspizieren Exercise 9: Logging Exercise 10: Logging üben Exercise 11: Logging üben 2 Exercise 12: Abfragepläne Exercise 13: Query-Pläne üben Exercise 14: Übe das Lesen von Abfrageplänen 2

In den vorherigen Kapiteln hast du Werkzeuge erhalten, um Rohtext zu laden, zu tokenisieren und Wortfolgen zu extrahieren. Das ist bereits sehr nützlich für Analysen, aber auch für Machine Learning. Jetzt führst du alles zusammen, indem du logistische Regression zur Textklassifikation einsetzt. Am Ende dieses Kapitels hast du Rohdaten aus natürlicher Sprache geladen und damit einen Textklassifikator trainiert.

Exercise 1: Extract Transform Select Exercise 2: UDF erstellen üben Exercise 3: Mit Array-Spalten üben Exercise 4: Featuredaten für die Klassifikation erstellen Exercise 5: Eine UDF für Vektordaten erstellen Exercise 6: Eine UDF auf Vektordaten anwenden Exercise 7: Text in Vektorformat umwandeln Exercise 8: Textklassifikation Exercise 9: Daten labeln Exercise 10: Teile die Daten Exercise 11: Den Klassifikator trainieren Exercise 12: Vorhersagen und Auswerten Exercise 13: Den Klassifikator auswerten Exercise 14: Testdaten vorhersagen Exercise 15: Rückblick