Inspection des données dans un DataFrame PySpark
L'inspection des données est cruciale avant d'effectuer des analyses telles que les graphiques, la modélisation, l’entraînement, etc. Dans cet exercice simple, vous allez inspecter les données du DataFrame people_df
que vous avez créé dans l'exercice précédent en utilisant les opérateurs de base des DataFrames.
N'oubliez pas que vous disposez déjà d'une SparkSession spark
et d'un DataFrame people_df
dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Affichez les 10 premières observations du DataFrame
people_df
. - Comptez le nombre de lignes dans le DataFrame
people_df
. - Combien de colonnes comporte le DataFrame
people_df
et quels sont leurs noms ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the first 10 observations
people_df.____(10)
# Count the number of rows
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))
# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))