Inferisci e filtra
Immagina di avere un insieme di dati del censimento di cui conosci intestazione e schema. Carichiamo quel dataset e lasciamo che PySpark deduca lo schema. Cosa ottieni se filtri per gli adulti oltre i 40 anni?
Ricorda, nel tuo workspace c'è già una SparkSession chiamata spark!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Carica il file JSON
adults.json. - Filtra i dati per includere gli adulti con
agemaggiore di40. - Mostra i risultati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the dataframe
census_df = spark.read.json("adults.json")
# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)
# Show the result
____