CommencerCommencez gratuitement

Charger un dataframe à partir d’un fichier Parquet

Un fichier dataframe nommé sherlock_sentences.parquet est disponible dans votre espace de travail. Chaque ligne de ce dataframe contient une seule proposition. Chaque proposition est une suite de mots séparée des autres par de la ponctuation, comme des points, des guillemets et d’autres délimiteurs de langue naturelle qui signalent une phrase ou un fragment de phrase. Votre mission, si vous l’acceptez, est de charger ce fichier.

Cet exercice fait partie du cours

<cours>Introduction à Spark SQL en Python</cours>
Voir le cours

Instructions de l’exercice

  • Chargez sherlock_sentences.parquet.
  • Filtrez sur « id > 70 » et affichez les 5 premières lignes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)
Modifier et exécuter le code