Ein DataFrame aus einer Parquet-Datei laden

In deinem Workspace befindet sich eine DataFrame-Datei namens sherlock_sentences.parquet. Jede Zeile dieses DataFrames enthält einen einzelnen Teilsatz. Jeder Teilsatz ist eine Abfolge von Wörtern, die durch Satzzeichen wie Punkte, Anführungszeichen und andere natürliche Sprachtrenner von anderen Teilsätzen getrennt ist und einen Satz oder Satzteil kennzeichnet. Deine Aufgabe, falls du sie annimmst, ist es, diese Datei zu laden.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Lade sherlock_sentences.parquet.
Filtere nach "id > 70" und zeige die ersten 5 Zeilen an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

145 reviews

Kurs kostenlos starten

In diesem Kapitel lernst du, wie du in Spark eine SQL-Tabelle erstellst und abfragst. Spark SQL bringt die Ausdrucksstärke von SQL nach Spark. Außerdem lernst du, wie du SQL-Fensterfunktionen in Spark verwendest. Fensterfunktionen führen Berechnungen über Zeilen aus, die mit der aktuellen Zeile in Beziehung stehen. So werden Ergebnisse wesentlich einfacher, die sich nur mit Joins und klassischen Aggregationen schwer ausdrücken lassen. Wir nutzen Fensterfunktionen für laufende Summen, laufende Differenzen und andere Operationen, die in einfachem SQL herausfordernd sind.

Exercise 1: Eine SQL-Tabelle in Spark erstellen und abfragen Exercise 2: Erstelle eine SQL-Tabelle aus einem DataFrame Exercise 3: Spaltennamen einer Tabelle ermitteln Exercise 4: Window-Function-SQL Exercise 5: Laufende Summen mit Window-Function-SQL Exercise 6: Die fehlerhafte Abfrage beheben Exercise 7: Punktnotation und SQL Exercise 8: Aggregation, Schritt für Schritt Exercise 9: Dieselbe Spalte zweimal aggregieren Exercise 10: Aggregat-Punkt-SQL Exercise 11: Window-Funktion von Dot-Notation zu SQL umwandeln

In diesem Kapitel lädst du Text aus natürlicher Sprache. Danach wendest du eine gleitende Fensteranalyse an, um häufige Wortfolgen zu finden.

Exercise 1: Natürlichsprachlichen Text laden Exercise 2: Ein DataFrame aus einer Parquet-Datei laden

Aktuelle Übung

Exercise 3: Textspalte splitten und explodieren Exercise 4: Verwendung von monotonically_increasing_id()Exercise 5: Gleitfensteranalyse Exercise 6: Kontextfenster-Featuredaten erstellen Exercise 7: Die Daten neu partitionieren Exercise 8: Häufige Wortfolgen Exercise 9: Um welchen Datentyp handelt es sich?Exercise 10: Häufige Wortfolgen finden Exercise 11: Eindeutige 5-Tupel in sortierter Reihenfolge Exercise 12: Häufigste 3-Tupel pro Kapitel

In den vorherigen Kapiteln hast du gelernt, wie ausdrucksstark SQL mit Fensterfunktionen ist. Diese Ausdrucksstärke macht es nun wichtig, dass du verstehst, wie man DataFrames und SQL-Tabellen richtig cached. Außerdem ist es wichtig zu wissen, wie du deine Anwendung bewertest. Du lernst, wie du das mit dem Spark UI machst. Außerdem erfährst du eine Best Practice für Logging in Spark. Spark SQL bringt ein weiteres nützliches Werkzeug zur Optimierung von Abfrageleistungen mit: den Ausführungsplan. Du lernst, wie du den Ausführungsplan verwendest, um die Herkunft eines DataFrames zu beurteilen.

Exercise 1: Caching Exercise 2: Caching üben: Teil 1 Exercise 3: Caching üben: die SQL Exercise 4: Caching üben: alles zusammenführen Exercise 5: Tabellen cachen und aus dem Cache entfernen Exercise 6: Die Spark UI Exercise 7: Spark-UI-Registerkarte Storage Exercise 8: Cache in der Spark UI inspizieren Exercise 9: Logging Exercise 10: Logging üben Exercise 11: Logging üben 2 Exercise 12: Abfragepläne Exercise 13: Query-Pläne üben Exercise 14: Übe das Lesen von Abfrageplänen 2

In den vorherigen Kapiteln hast du Werkzeuge erhalten, um Rohtext zu laden, zu tokenisieren und Wortfolgen zu extrahieren. Das ist bereits sehr nützlich für Analysen, aber auch für Machine Learning. Jetzt führst du alles zusammen, indem du logistische Regression zur Textklassifikation einsetzt. Am Ende dieses Kapitels hast du Rohdaten aus natürlicher Sprache geladen und damit einen Textklassifikator trainiert.

Exercise 1: Extract Transform Select Exercise 2: UDF erstellen üben Exercise 3: Mit Array-Spalten üben Exercise 4: Featuredaten für die Klassifikation erstellen Exercise 5: Eine UDF für Vektordaten erstellen Exercise 6: Eine UDF auf Vektordaten anwenden Exercise 7: Text in Vektorformat umwandeln Exercise 8: Textklassifikation Exercise 9: Daten labeln Exercise 10: Teile die Daten Exercise 11: Den Klassifikator trainieren Exercise 12: Vorhersagen und Auswerten Exercise 13: Den Klassifikator auswerten Exercise 14: Testdaten vorhersagen Exercise 15: Rückblick