IniziaInizia gratis

Mettiamo tutto insieme I

Hai costruito solide basi in PySpark, esplorato i suoi componenti principali e lavorato su scenari pratici con Spark SQL, DataFrame e operazioni avanzate. Ora è il momento di mettere tutto insieme. Nei prossimi due esercizi creerai una SparkSession, un DataFrame, metterai in cache quel DataFrame, eseguirai analisi e spiegherai il risultato!

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Importa SparkSession da pyspark.sql.
  • Crea una nuova SparkSession chiamata final_spark usando SparkSession.builder.getOrCreate().
  • Stampa my_spark in console per verificare che sia una SparkSession.
  • Crea un nuovo DataFrame da uno schema e una definizione di colonne pre-caricati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Modifica ed esegui il codice