CommencerCommencer gratuitement

Définir le schéma

Nous avons chargé des schémas de plusieurs manières. Définissons maintenant un schéma directement. Nous utiliserons un dictionnaire de données :

Variable Description
age Âge de l’individu
education_num Niveau d’études (en diplômes)
marital_status Statut marital
occupation Profession
income Revenu catégoriel

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Spécifiez le schéma des données en indiquant les noms de colonnes (age, education_num, marital_status, occupation et income) et leurs types, et en définissant une virgule pour l’argument sep=.
  • Lisez les données à partir d’un fichier délimité par des virgules nommé adult_reduced_100.csv.
  • Affichez le schéma du DataFrame obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Modifier et exécuter le code