CommencerCommencer gratuitement

Charger des données de recensement

Commençons par créer votre premier DataFrame PySpark ! Le fichier adult_reduced.csv contient un regroupement d’adultes selon diverses catégories démographiques. Ces données sont adaptées du recensement américain (US Census). Il y a au total 32 562 regroupements d’adultes.

Nous allons charger le fichier CSV et examiner le schéma obtenu.

Dictionnaire des données :

Variable Description
age Âge de l’individu
education_num Niveau d’études (par diplôme)
marital_status Situation matrimoniale
occupation Profession
income Revenu (variable catégorielle)

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Créez un DataFrame PySpark à partir du fichier "adult_reduced.csv" à l’aide de la méthode spark.read.csv().
  • Affichez le DataFrame obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Modifier et exécuter le code