CommencerCommencer gratuitement

Mettons tout en pratique I

Vous avez acquis des bases solides en PySpark, exploré ses composants essentiels et travaillé sur des scénarios pratiques avec Spark SQL, les DataFrames et des opérations avancées. Il est temps de tout rassembler. Dans les deux prochains exercices, vous allez créer une SparkSession, un DataFrame, mettre ce DataFrame en cache, réaliser quelques analyses et expliquer le résultat !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Importez SparkSession depuis pyspark.sql.
  • Créez une nouvelle SparkSession appelée final_spark avec SparkSession.builder.getOrCreate().
  • Affichez my_spark dans la console pour vérifier qu’il s’agit d’une SparkSession.
  • Créez un nouveau DataFrame à partir d’un schéma et d’une définition de colonnes déjà chargés.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Modifier et exécuter le code