Caricare i dati del censimento
Iniziamo creando il tuo primo DataFrame PySpark! Il file adult_reduced.csv contiene un raggruppamento di adulti in base a varie categorie demografiche. Questi dati sono stati adattati dal US Census. In totale ci sono 32562 raggruppamenti di adulti.
Dovremmo caricare il CSV e vedere lo schema risultante.
Dizionario dei dati:
| Variabile | Descrizione |
|---|---|
| age | Età dell'individuo |
| education_num | Istruzione per titolo |
| marital_status | Stato civile |
| occupation | Professione |
| income | Reddito categoriale |
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Crea un DataFrame PySpark dal file
"adult_reduced.csv"usando il metodospark.read.csv(). - Mostra il DataFrame risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____