CommencerCommencer gratuitement

Charger un dataframe à partir d’un fichier Parquet

Un fichier dataframe nommé sherlock_sentences.parquet est disponible dans votre espace de travail. Chaque ligne de ce dataframe contient une seule proposition. Chaque proposition est une suite de mots séparée des autres par de la ponctuation, comme des points, des guillemets et d’autres délimiteurs de langue naturelle qui signalent une phrase ou un fragment de phrase. Votre mission, si vous l’acceptez, est de charger ce fichier.

Cet exercice fait partie du cours

Introduction à Spark SQL en Python

Afficher le cours

Instructions

  • Chargez sherlock_sentences.parquet.
  • Filtrez sur « id > 70 » et affichez les 5 premières lignes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)
Modifier et exécuter le code