Häufige Wortfolgen finden

Zuvor haben wir gesehen, wie man eine Abfrage erstellt, die Wortfolgen der Länge drei („3-Tupel“) findet. Diese Abfrage haben wir als Unterabfrage in einer klassischen SQL-Abfrage verwendet, um die häufigsten 3-Tupel im Textdokument zu ermitteln. Jetzt führst du eine ähnliche Aufgabe aus, um die häufigsten 5-Tupel zu finden.

Das DataFrame text_df steht zur Verfügung. Es enthält die ersten fünf Kapitel des Sherlock-Holmes-Textes. Es hat die Spalten: word, id, part, title. Die Spalte id ist eine ganze Zahl; ein Wort, das später im Dokument vorkommt, hat eine größere id als ein Wort, das vorher vorkommt. Die Spalte part trennt die Daten in Kapitel. Das DataFrame text_df ist außerdem als temporäre Tabelle mit dem Namen text registriert. Unser Ziel ist es, einen Datensatz zu erstellen, in dem jede Zeile einem 5-Tupel entspricht und eine count enthält, die angibt, wie oft das Tupel im Datensatz vorkam.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>

Übungsanweisungen

Erstelle eine Abfrage query, die die 10 häufigsten 5-Tupel im Datensatz findet.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Find the top 10 sequences of five words
query = """
SELECT w1, w2, w3, w4, w5, COUNT(*) AS count FROM (
   SELECT word AS w1,
   LEAD(____) OVER(____ ) AS w2,
   ____ AS w3,
   ____ AS w4,
   ____ AS w5
   FROM text
)
GROUP BY w1, w2, w3, w4, w5
ORDER BY count DESC, w1, w2, w3, w4, w5
LIMIT ____
"""
df = spark.sql(query)
df.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, wie du in Spark eine SQL-Tabelle erstellst und abfragst. Spark SQL bringt die Ausdrucksstärke von SQL nach Spark. Außerdem lernst du, wie du SQL-Fensterfunktionen in Spark verwendest. Fensterfunktionen führen Berechnungen über Zeilen aus, die mit der aktuellen Zeile in Beziehung stehen. So werden Ergebnisse wesentlich einfacher, die sich nur mit Joins und klassischen Aggregationen schwer ausdrücken lassen. Wir nutzen Fensterfunktionen für laufende Summen, laufende Differenzen und andere Operationen, die in einfachem SQL herausfordernd sind.

Exercise 1: Eine SQL-Tabelle in Spark erstellen und abfragen Exercise 2: Erstelle eine SQL-Tabelle aus einem DataFrame Exercise 3: Spaltennamen einer Tabelle ermitteln Exercise 4: Window-Function-SQL Exercise 5: Laufende Summen mit Window-Function-SQL Exercise 6: Die fehlerhafte Abfrage beheben Exercise 7: Punktnotation und SQL Exercise 8: Aggregation, Schritt für Schritt Exercise 9: Dieselbe Spalte zweimal aggregieren Exercise 10: Aggregat-Punkt-SQL Exercise 11: Window-Funktion von Dot-Notation zu SQL umwandeln

In diesem Kapitel lädst du Text aus natürlicher Sprache. Danach wendest du eine gleitende Fensteranalyse an, um häufige Wortfolgen zu finden.

Exercise 1: Natürlichsprachlichen Text laden Exercise 2: Ein DataFrame aus einer Parquet-Datei laden Exercise 3: Textspalte splitten und explodieren Exercise 4: Verwendung von monotonically_increasing_id()Exercise 5: Gleitfensteranalyse Exercise 6: Kontextfenster-Featuredaten erstellen Exercise 7: Die Daten neu partitionieren Exercise 8: Häufige Wortfolgen Exercise 9: Um welchen Datentyp handelt es sich?Exercise 10: Häufige Wortfolgen finden

Aktuelle Übung

Exercise 11: Eindeutige 5-Tupel in sortierter Reihenfolge Exercise 12: Häufigste 3-Tupel pro Kapitel

In den vorherigen Kapiteln hast du gelernt, wie ausdrucksstark SQL mit Fensterfunktionen ist. Diese Ausdrucksstärke macht es nun wichtig, dass du verstehst, wie man DataFrames und SQL-Tabellen richtig cached. Außerdem ist es wichtig zu wissen, wie du deine Anwendung bewertest. Du lernst, wie du das mit dem Spark UI machst. Außerdem erfährst du eine Best Practice für Logging in Spark. Spark SQL bringt ein weiteres nützliches Werkzeug zur Optimierung von Abfrageleistungen mit: den Ausführungsplan. Du lernst, wie du den Ausführungsplan verwendest, um die Herkunft eines DataFrames zu beurteilen.

Exercise 1: Caching Exercise 2: Caching üben: Teil 1 Exercise 3: Caching üben: die SQL Exercise 4: Caching üben: alles zusammenführen Exercise 5: Tabellen cachen und aus dem Cache entfernen Exercise 6: Die Spark UI Exercise 7: Spark-UI-Registerkarte Storage Exercise 8: Cache in der Spark UI inspizieren Exercise 9: Logging Exercise 10: Logging üben Exercise 11: Logging üben 2 Exercise 12: Abfragepläne Exercise 13: Query-Pläne üben Exercise 14: Übe das Lesen von Abfrageplänen 2

In den vorherigen Kapiteln hast du Werkzeuge erhalten, um Rohtext zu laden, zu tokenisieren und Wortfolgen zu extrahieren. Das ist bereits sehr nützlich für Analysen, aber auch für Machine Learning. Jetzt führst du alles zusammen, indem du logistische Regression zur Textklassifikation einsetzt. Am Ende dieses Kapitels hast du Rohdaten aus natürlicher Sprache geladen und damit einen Textklassifikator trainiert.

Exercise 1: Extract Transform Select Exercise 2: UDF erstellen üben Exercise 3: Mit Array-Spalten üben Exercise 4: Featuredaten für die Klassifikation erstellen Exercise 5: Eine UDF für Vektordaten erstellen Exercise 6: Eine UDF auf Vektordaten anwenden Exercise 7: Text in Vektorformat umwandeln Exercise 8: Textklassifikation Exercise 9: Daten labeln Exercise 10: Teile die Daten Exercise 11: Den Klassifikator trainieren Exercise 12: Vorhersagen und Auswerten Exercise 13: Den Klassifikator auswerten Exercise 14: Testdaten vorhersagen Exercise 15: Rückblick