CommencerCommencer gratuitement

Chargement de CSV dans DataFrame

Dans l'exercice précédent, vous avez étudié une méthode pour créer un DataFrame à partir d'un RDD. En général, la méthode la plus courante pour créer des DataFrames consiste à charger des données à partir d'un fichier CSV. Dans cet exercice, vous allez créer un DataFrame PySpark à partir du fichier people.csv qui vous est déjà fourni en tant que file_path et confirmer que l'objet créé est un DataFrame PySpark.

Rappelez-vous qu’une SparkSession spark et une variable file_path (le chemin d'accès au fichier people.csv ) se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Créez un DataFrame à partir de la variable file_path qui est le chemin d'accès au fichier people.csv.
  • Confirmez que le résultat est bien un DataFrame PySpark.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))
Modifier et exécuter le code