LoslegenKostenlos starten

Ein DataFrame aus einer Parquet-Datei laden

In deinem Workspace befindet sich eine DataFrame-Datei namens sherlock_sentences.parquet. Jede Zeile dieses DataFrames enthält einen einzelnen Teilsatz. Jeder Teilsatz ist eine Abfolge von Wörtern, die durch Satzzeichen wie Punkte, Anführungszeichen und andere natürliche Sprachtrenner von anderen Teilsätzen getrennt ist und einen Satz oder Satzteil kennzeichnet. Deine Aufgabe, falls du sie annimmst, ist es, diese Datei zu laden.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade sherlock_sentences.parquet.
  • Filtere nach "id > 70" und zeige die ersten 5 Zeilen an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)
Code bearbeiten und ausführen