Kontextfenster-Featuredaten erstellen

Die Moving-Window-Technik ist nützlich für Machine-Learning-Modelle, die Kontextfenster-Featuredaten verwenden.

In deinem Workspace steht eine Tabelle text mit den Spalten id, word, part, title zur Verfügung. Sie enthält die Kapitel 9, 10, 11 und 12 des Sherlock-Holmes-Buchs. Die Wörter sind bereits verarbeitet und so organisiert, dass pro Zeile genau ein Wort steht. Jedes Wort hat einen eindeutigen ganzzahligen Index in der Spalte id. Die id-Spalte ist kleiner für Wörter, die früher im Text vorkommen, und größer für Wörter, die später im Text erscheinen.

Die ersten 10 Zeilen des Datensatzes für Kapitel 12 werden als Table1 in der Konsole ausgegeben. Die ersten zehn Zeilen des gewünschten Ergebnisses, gefiltert auf part 12 (Kapitel 12), werden als Table2 in der Konsole ausgegeben. In Table2 steht das „gegebene“ Wort der Zeile in der Spalte w3. Die Spalten w1 und w2 liefern die zwei Wörter unmittelbar vor dem gegebenen Wort. Die Spalten w4 und w5 liefern die zwei Wörter unmittelbar nach dem gegebenen Wort.

Beachte, dass w1 und w2 in der ersten Zeile null sind. Das liegt daran, dass es innerhalb von part 12 keine Wörter vor w3 (hier „xii“) gibt.

Wenn du dir aus dem Video etwas nicht mehr genau erinnerst, schau dir gern die Folien rechts neben der Konsole an.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>

Übungsanweisungen

Ermittle für jede Zeile das Wort sowie die zwei vorherigen und die zwei folgenden Wörter.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Word for each row, previous two and subsequent two words
query = """
SELECT
part,
LAG(word, 2) OVER(PARTITION BY ____ ORDER BY ____) AS w1,
LAG(word, ____) OVER(____ BY part ____ BY id) AS w2,
word AS w3,
____(word, 1) OVER(____ BY part ____ BY id) AS w4,
LEAD(word, 2) OVER(____ BY part ____ BY id) AS w5
FROM text
"""
spark.sql(query).where("part = 12").show(10)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, wie du in Spark eine SQL-Tabelle erstellst und abfragst. Spark SQL bringt die Ausdrucksstärke von SQL nach Spark. Außerdem lernst du, wie du SQL-Fensterfunktionen in Spark verwendest. Fensterfunktionen führen Berechnungen über Zeilen aus, die mit der aktuellen Zeile in Beziehung stehen. So werden Ergebnisse wesentlich einfacher, die sich nur mit Joins und klassischen Aggregationen schwer ausdrücken lassen. Wir nutzen Fensterfunktionen für laufende Summen, laufende Differenzen und andere Operationen, die in einfachem SQL herausfordernd sind.

Exercise 1: Eine SQL-Tabelle in Spark erstellen und abfragen Exercise 2: Erstelle eine SQL-Tabelle aus einem DataFrame Exercise 3: Spaltennamen einer Tabelle ermitteln Exercise 4: Window-Function-SQL Exercise 5: Laufende Summen mit Window-Function-SQL Exercise 6: Die fehlerhafte Abfrage beheben Exercise 7: Punktnotation und SQL Exercise 8: Aggregation, Schritt für Schritt Exercise 9: Dieselbe Spalte zweimal aggregieren Exercise 10: Aggregat-Punkt-SQL Exercise 11: Window-Funktion von Dot-Notation zu SQL umwandeln

In diesem Kapitel lädst du Text aus natürlicher Sprache. Danach wendest du eine gleitende Fensteranalyse an, um häufige Wortfolgen zu finden.

Exercise 1: Natürlichsprachlichen Text laden Exercise 2: Ein DataFrame aus einer Parquet-Datei laden Exercise 3: Textspalte splitten und explodieren Exercise 4: Verwendung von monotonically_increasing_id()Exercise 5: Gleitfensteranalyse Exercise 6: Kontextfenster-Featuredaten erstellen

Aktuelle Übung

Exercise 7: Die Daten neu partitionieren Exercise 8: Häufige Wortfolgen Exercise 9: Um welchen Datentyp handelt es sich?Exercise 10: Häufige Wortfolgen finden Exercise 11: Eindeutige 5-Tupel in sortierter Reihenfolge Exercise 12: Häufigste 3-Tupel pro Kapitel

In den vorherigen Kapiteln hast du gelernt, wie ausdrucksstark SQL mit Fensterfunktionen ist. Diese Ausdrucksstärke macht es nun wichtig, dass du verstehst, wie man DataFrames und SQL-Tabellen richtig cached. Außerdem ist es wichtig zu wissen, wie du deine Anwendung bewertest. Du lernst, wie du das mit dem Spark UI machst. Außerdem erfährst du eine Best Practice für Logging in Spark. Spark SQL bringt ein weiteres nützliches Werkzeug zur Optimierung von Abfrageleistungen mit: den Ausführungsplan. Du lernst, wie du den Ausführungsplan verwendest, um die Herkunft eines DataFrames zu beurteilen.

Exercise 1: Caching Exercise 2: Caching üben: Teil 1 Exercise 3: Caching üben: die SQL Exercise 4: Caching üben: alles zusammenführen Exercise 5: Tabellen cachen und aus dem Cache entfernen Exercise 6: Die Spark UI Exercise 7: Spark-UI-Registerkarte Storage Exercise 8: Cache in der Spark UI inspizieren Exercise 9: Logging Exercise 10: Logging üben Exercise 11: Logging üben 2 Exercise 12: Abfragepläne Exercise 13: Query-Pläne üben Exercise 14: Übe das Lesen von Abfrageplänen 2

In den vorherigen Kapiteln hast du Werkzeuge erhalten, um Rohtext zu laden, zu tokenisieren und Wortfolgen zu extrahieren. Das ist bereits sehr nützlich für Analysen, aber auch für Machine Learning. Jetzt führst du alles zusammen, indem du logistische Regression zur Textklassifikation einsetzt. Am Ende dieses Kapitels hast du Rohdaten aus natürlicher Sprache geladen und damit einen Textklassifikator trainiert.

Exercise 1: Extract Transform Select Exercise 2: UDF erstellen üben Exercise 3: Mit Array-Spalten üben Exercise 4: Featuredaten für die Klassifikation erstellen Exercise 5: Eine UDF für Vektordaten erstellen Exercise 6: Eine UDF auf Vektordaten anwenden Exercise 7: Text in Vektorformat umwandeln Exercise 8: Textklassifikation Exercise 9: Daten labeln Exercise 10: Teile die Daten Exercise 11: Den Klassifikator trainieren Exercise 12: Vorhersagen und Auswerten Exercise 13: Den Klassifikator auswerten Exercise 14: Testdaten vorhersagen Exercise 15: Rückblick