Ein DataFrame aus einer Parquet-Datei laden
In deinem Workspace befindet sich eine DataFrame-Datei namens sherlock_sentences.parquet. Jede Zeile dieses DataFrames enthält einen einzelnen Teilsatz. Jeder Teilsatz ist eine Abfolge von Wörtern, die durch Satzzeichen wie Punkte, Anführungszeichen und andere natürliche Sprachtrenner von anderen Teilsätzen getrennt ist und einen Satz oder Satzteil kennzeichnet. Deine Aufgabe, falls du sie annimmst, ist es, diese Datei zu laden.
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Anleitung zur Übung
- Lade
sherlock_sentences.parquet. - Filtere nach "id > 70" und zeige die ersten 5 Zeilen an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the dataframe
df = ____('sherlock_sentences.parquet')
# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)