Définir le schéma
Nous avons chargé des schémas de plusieurs manières. Définissons maintenant un schéma directement. Nous utiliserons un dictionnaire de données :
| Variable | Description |
|---|---|
| age | Âge de l’individu |
| education_num | Niveau d’études (en diplômes) |
| marital_status | Statut marital |
| occupation | Profession |
| income | Revenu catégoriel |
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Spécifiez le schéma des données en indiquant les noms de colonnes (
age,education_num,marital_status,occupationetincome) et leurs types, et en définissant une virgule pour l’argumentsep=. - Lisez les données à partir d’un fichier délimité par des virgules nommé
adult_reduced_100.csv. - Affichez le schéma du DataFrame obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____