Charger des données de recensement
Commençons par créer votre premier DataFrame PySpark ! Le fichier adult_reduced.csv contient un regroupement d’adultes selon diverses catégories démographiques. Ces données sont adaptées du recensement américain (US Census). Il y a au total 32 562 regroupements d’adultes.
Nous allons charger le fichier CSV et examiner le schéma obtenu.
Dictionnaire des données :
| Variable | Description |
|---|---|
| age | Âge de l’individu |
| education_num | Niveau d’études (par diplôme) |
| marital_status | Situation matrimoniale |
| occupation | Profession |
| income | Revenu (variable catégorielle) |
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Créez un DataFrame PySpark à partir du fichier
"adult_reduced.csv"à l’aide de la méthodespark.read.csv(). - Affichez le DataFrame obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____