Chargement de CSV dans DataFrame
Dans l'exercice précédent, vous avez étudié une méthode pour créer un DataFrame à partir d'un RDD. En général, la méthode la plus courante pour créer des DataFrames consiste à charger des données à partir d'un fichier CSV. Dans cet exercice, vous allez créer un DataFrame PySpark à partir du fichier people.csv
qui vous est déjà fourni en tant que file_path
et confirmer que l'objet créé est un DataFrame PySpark.
Rappelez-vous qu’une SparkSession spark
et une variable file_path
(le chemin d'accès au fichier people.csv
) se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez un DataFrame à partir de la variable
file_path
qui est le chemin d'accès au fichierpeople.csv
. - Confirmez que le résultat est bien un DataFrame PySpark.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))