CommencerCommencez gratuitement

Mettons tout en pratique I

Vous avez acquis des bases solides en PySpark, exploré ses composants essentiels et travaillé sur des scénarios pratiques avec Spark SQL, les DataFrames et des opérations avancées. Il est temps de tout rassembler. Dans les deux prochains exercices, vous allez créer une SparkSession, un DataFrame, mettre ce DataFrame en cache, réaliser quelques analyses et expliquer le résultat !

Cet exercice fait partie du cours

<cours>Introduction à PySpark</cours>
Voir le cours

Instructions de l’exercice

  • Importez SparkSession depuis pyspark.sql.
  • Créez une nouvelle SparkSession appelée final_spark avec SparkSession.builder.getOrCreate().
  • Affichez my_spark dans la console pour vérifier qu’il s’agit d’une SparkSession.
  • Créez un nouveau DataFrame à partir d’un schéma et d’une définition de colonnes déjà chargés.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Modifier et exécuter le code