Mettiamo tutto insieme I
Hai costruito solide basi in PySpark, esplorato i suoi componenti principali e lavorato su scenari pratici con Spark SQL, DataFrame e operazioni avanzate. Ora è il momento di mettere tutto insieme. Nei prossimi due esercizi creerai una SparkSession, un DataFrame, metterai in cache quel DataFrame, eseguirai analisi e spiegherai il risultato!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Importa
SparkSessiondapyspark.sql. - Crea una nuova
SparkSessionchiamatafinal_sparkusandoSparkSession.builder.getOrCreate(). - Stampa
my_sparkin console per verificare che sia unaSparkSession. - Crea un nuovo DataFrame da uno schema e una definizione di colonne pre-caricati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import SparkSession from pyspark.sql
from ____ import ____
# Create my_spark
my_spark = SparkSession.builder.appName(____).____
# Print my_spark
____
# Load dataset into a DataFrame
df = ____(data, schema=columns)
df.show()