Utilisation interactive de PySpark
Spark est livré avec un shell Python interactif dans lequel PySpark est déjà installé. Le shell PySpark est utile pour les tests et le débogage de base, et est assez puissant. La façon la plus simple de démontrer la puissance du shell de PySpark est de réaliser un exercice. Dans cet exercice, vous allez charger une liste simple contenant des nombres allant de 1 à 100 dans le shell PySpark.
Ici, le plus important à comprendre est que nous ne créons aucun objet SparkContext, car PySpark crée automatiquement l'objet SparkContext nommé sc
dans le shell PySpark.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez une liste Python nommée
numb
contenant les nombres 1 à 100. - Chargez la liste dans Spark à l'aide de la méthode
parallelize
de SparkContext et affectez-la à une variablespark_data
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)