CommencerCommencer gratuitement

Utilisation interactive de PySpark

Spark est livré avec un shell Python interactif dans lequel PySpark est déjà installé. Le shell PySpark est utile pour les tests et le débogage de base, et est assez puissant. La façon la plus simple de démontrer la puissance du shell de PySpark est de réaliser un exercice. Dans cet exercice, vous allez charger une liste simple contenant des nombres allant de 1 à 100 dans le shell PySpark.

Ici, le plus important à comprendre est que nous ne créons aucun objet SparkContext, car PySpark crée automatiquement l'objet SparkContext nommé sc dans le shell PySpark.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Créez une liste Python nommée numb contenant les nombres 1 à 100.
  • Chargez la liste dans Spark à l'aide de la méthode parallelize de SparkContext et affectez-la à une variable spark_data.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a Python list of numbers from 1 to 100 
numb = range(____, ____)

# Load the list into PySpark  
spark_data = sc.____(numb)
Modifier et exécuter le code