CommencerCommencer gratuitement

Inspection des données dans un DataFrame PySpark

L'inspection des données est cruciale avant d'effectuer des analyses telles que les graphiques, la modélisation, l’entraînement, etc. Dans cet exercice simple, vous allez inspecter les données du DataFrame people_df que vous avez créé dans l'exercice précédent en utilisant les opérateurs de base des DataFrames.

N'oubliez pas que vous disposez déjà d'une SparkSession spark et d'un DataFrame people_df dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Affichez les 10 premières observations du DataFrame people_df.
  • Comptez le nombre de lignes dans le DataFrame people_df.
  • Combien de colonnes comporte le DataFrame people_df et quels sont leurs noms ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the first 10 observations 
people_df.____(10)

# Count the number of rows 
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))

# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))
Modifier et exécuter le code