LoslegenKostenlos loslegen

Ein DataFrame aus einer Parquet-Datei laden

In deinem Workspace befindet sich eine DataFrame-Datei namens sherlock_sentences.parquet. Jede Zeile dieses DataFrames enthält einen einzelnen Teilsatz. Jeder Teilsatz ist eine Abfolge von Wörtern, die durch Satzzeichen wie Punkte, Anführungszeichen und andere natürliche Sprachtrenner von anderen Teilsätzen getrennt ist und einen Satz oder Satzteil kennzeichnet. Deine Aufgabe, falls du sie annimmst, ist es, diese Datei zu laden.

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Kurs anzeigen

Anleitung zur Übung

  • Lade sherlock_sentences.parquet.
  • Filtere nach "id > 70" und zeige die ersten 5 Zeilen an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)
Code bearbeiten und ausführen