Ein DataFrame aus einer Parquet-Datei laden
In deinem Workspace befindet sich eine DataFrame-Datei namens sherlock_sentences.parquet. Jede Zeile dieses DataFrames enthält einen einzelnen Teilsatz. Jeder Teilsatz ist eine Abfolge von Wörtern, die durch Satzzeichen wie Punkte, Anführungszeichen und andere natürliche Sprachtrenner von anderen Teilsätzen getrennt ist und einen Satz oder Satzteil kennzeichnet. Deine Aufgabe, falls du sie annimmst, ist es, diese Datei zu laden.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Spark SQL mit Python</Kurs>Übungsanweisungen
- Lade
sherlock_sentences.parquet. - Filtere nach "id > 70" und zeige die ersten 5 Zeilen an.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the dataframe
df = ____('sherlock_sentences.parquet')
# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)