Charger un dataframe à partir d’un fichier Parquet
Un fichier dataframe nommé sherlock_sentences.parquet est disponible dans votre espace de travail. Chaque ligne de ce dataframe contient une seule proposition. Chaque proposition est une suite de mots séparée des autres par de la ponctuation, comme des points, des guillemets et d’autres délimiteurs de langue naturelle qui signalent une phrase ou un fragment de phrase. Votre mission, si vous l’acceptez, est de charger ce fichier.
Cet exercice fait partie du cours
Introduction à Spark SQL en Python
Instructions
- Chargez
sherlock_sentences.parquet. - Filtrez sur « id > 70 » et affichez les 5 premières lignes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the dataframe
df = ____('sherlock_sentences.parquet')
# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)