Mettons tout en pratique I
Vous avez acquis des bases solides en PySpark, exploré ses composants essentiels et travaillé sur des scénarios pratiques avec Spark SQL, les DataFrames et des opérations avancées. Il est temps de tout rassembler. Dans les deux prochains exercices, vous allez créer une SparkSession, un DataFrame, mettre ce DataFrame en cache, réaliser quelques analyses et expliquer le résultat !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Importez
SparkSessiondepuispyspark.sql. - Créez une nouvelle
SparkSessionappeléefinal_sparkavecSparkSession.builder.getOrCreate(). - Affichez
my_sparkdans la console pour vérifier qu’il s’agit d’uneSparkSession. - Créez un nouveau DataFrame à partir d’un schéma et d’une définition de colonnes déjà chargés.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import SparkSession from pyspark.sql
from ____ import ____
# Create my_spark
my_spark = SparkSession.builder.appName(____).____
# Print my_spark
____
# Load dataset into a DataFrame
df = ____(data, schema=columns)
df.show()