Scrittura dello schema
Abbiamo caricato gli schemi in vari modi. Ora definiamo uno schema direttamente. Useremo un dizionario dei dati:
| Variabile | Descrizione |
|---|---|
| age | Età della persona |
| education_num | Istruzione per titolo |
| marital_status | Stato civile |
| occupation | Occupazione |
| income | Reddito categorico |
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Specifica lo schema dei dati, indicando i nomi delle colonne (
age,education_num,marital_status,occupationeincome) e i tipi di colonna, impostando una virgola come argomentosep=. - Leggi i dati da un file con delimitatore di virgola chiamato
adult_reduced_100.csv. - Stampa lo schema del DataFrame risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____