IniziaInizia gratis

Scrittura dello schema

Abbiamo caricato gli schemi in vari modi. Ora definiamo uno schema direttamente. Useremo un dizionario dei dati:

Variabile Descrizione
age Età della persona
education_num Istruzione per titolo
marital_status Stato civile
occupation Occupazione
income Reddito categorico

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Specifica lo schema dei dati, indicando i nomi delle colonne (age,education_num,marital_status,occupation e income) e i tipi di colonna, impostando una virgola come argomento sep=.
  • Leggi i dati da un file con delimitatore di virgola chiamato adult_reduced_100.csv.
  • Stampa lo schema del DataFrame risultante.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Modifica ed esegui il codice