Aan de slagGa gratis aan de slag

Een dataframe laden uit een parquet-bestand

Er staat een dataframe-bestand met de naam sherlock_sentences.parquet in je workspace. Elke rij van deze dataframe bevat één bijzin. Elke bijzin is een reeks woorden die door leestekens, zoals punten, aanhalingstekens en andere natuurlijke taalafscheiders die een zin of zinsdeel aangeven, van andere bijzinnen wordt gescheiden. Jouw missie, als je die accepteert, is om dit bestand te laden.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Cursus bekijken

Oefeninstructies

  • Laad sherlock_sentences.parquet.
  • Filter op "id > 70" en laat de eerste 5 rijen zien.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)
Code bewerken en uitvoeren